Allow users to configure vLLM runtime parameters

vLLM has many configuration knobs (e.g., max_num_seqs, gpu_memory_utilization, enable_prefix_caching) that impact performance. We should expose relevant parameters for user customization.

## Acceptance Criteria
- Identify most impactful vLLM configuration parameters
- Add fields to `DeploymentIntent` schema for vLLM config
- Update KServe InferenceService template to include vLLM args
- Provide sensible defaults based on use case and traffic profile
- Add UI controls for adjusting vLLM parameters (advanced mode)
- Document each parameter and its impact on performance

## Notes
- Start with most critical parameters (e.g., KV cache settings, memory utilization)
- Advanced users may want fine-grained control
- Consider auto-tuning parameters based on traffic profile in future

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Allow users to configure vLLM runtime parameters #13

Acceptance Criteria

Notes

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Allow users to configure vLLM runtime parameters #13

Description

Acceptance Criteria

Notes

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions