参数说明
更新时间:2025-05-16
参数说明
内置量化工具参数
| 参数名 | 描述 | 取值类型 | 是否必选 | 默认值 | 可选值 |
|---|---|---|---|---|---|
| -i | 原始模型权重输入路径 | str | 是 | ||
| -o | 量化后的模型权重输出路径 | str | 是 | ||
| -quant_type | 量化算法 | str | 是 | + weight_only_int8 + smooth_quant + awq + gptq |
|
| -tp | 服务部署的GPU卡数 | int | 是 | 1、2、4、8 | |
| -t | 指定非量化的部分存储类型 | str | 是 | fp16、bf16 | |
| -sq | 指定smooth-quant的量化smoother参数 | float | 否 | 取值范围[0-1]之间小数(llama默认是0.8, glm130是0.75) | |
| -token | 特殊需求时,smooth-quant量化需要的数据集token_ids路径 | str | 否 | 自定义数据记token_id 例如: --tokenids_path /XX/path_to/smooth_tokenids.txt 具体样式见附录3 |
|
| --multi-query-mode | 是否使用multi-query-attention(for smooth) | bool | 否 | False |
服务端主要参数
| 用户配置参数项 | 描述 | 取值类型 | 是否必选 | 是否AIAK特有 | 默认值 | 取值范围 |
|---|---|---|---|---|---|---|
| –host | 主机名 | str | 否 | 否 | ||
| –port | 端口号 | int | 否 | 否 | 8000 | |
| –lora-modules | LoRA模块配置,格式为’name=path’或JSON格式 | str | 否 | 否 | ||
| –chat-template | 聊天模板的文件路径,或指定模型的单行模板 | str | 否 | 否 | ||
| –model | 要使用的huggingface模型的名称或路径 | str | 是 | 否 | facebook/opt-125m | |
| –tokenizer | 要使用的huggingface分词器的名称或路径,如果未指定,将使用模型名称或路径 | str | 否 | 否 | ||
| --tokenizer-extension-path | 自定义tokenizer中vllm_extension.py的路径 | str | 否 | 是 | ||
| –trust-remote-code | 信任来自huggingface的远程代码 | bool | 否 | 否 | FALSE | |
| –dtype | 模型权重和激活的数据显示类型 | str | 否 | 否 | auto | auto,half,float16,bfloat16,float,float32 |
| –kv-cache-dtype | kv缓存存储的数据类型 | str | 否 | 否 | auto | auto,fp8,fp8_e5m2,fp8_e4m3 |
| –max-model-len | 模型的上下文长度 | int | 否 | 否 | ||
| –distributed-executor-backend | 用于分布式服务的后端,当使用多个GPU时,如果安装了ray,将自动设置为’ray’,否则为’mp’(多进程) | str | 否 | 否 | ray,mp | |
| –max-seq-len-to-capture | CUDA图覆盖的最大序列长度,超过此值回退到eager模式 | int | 否 | 否 | 8192 | |
| –num-scheduler-steps | 每个调度器调用的最大前向步数 | int | 否 | 否 | 1 | |
| –pipeline-parallel-size,-pp | 管道并行阶段的数量 | int | 否 | 否 | 1 | |
| –tensor-parallel-size,-tp | 张量并行副本的数量 | int | 否 | 否 | 1 | |
| –enable-prefix-caching | 启用自动前缀缓存 | bool | 否 | 否 | FALSE | |
| –gpu-memory-utilization | 用于模型执行器的GPU内存占用率,范围从0到1 | float | 否 | 否 | 0.9 | 0 到 1 |
| –max-num-batched-tokens | 每次迭代的最大批处理标记数 | int | 否 | 否 | ||
| –max-num-seqs | 每次迭代的最大序列数 | int | 否 | 否 | 256 | |
| –quantization,-q | 用于量化权重的方法 | str | 否 | 否 | awq;gpt;weight_only_int8;smooth_quant;None | |
| –enforce-eager | 始终使用eager模式的PyTorch | bool | 否 | 否 | FALSE | |
| –scheduler-delay-factor | 调度下一个提示前的延迟因子 | float | 否 | 否 | 0 | |
| –enable-chunked-prefill | 设置后,预填充请求可根据max_num_batched_tokens分块 | bool | 否 | 否 | ||
| –disable-async-output-proc | 禁用异步输出处理 | bool | 否 | 否 | FALSE |
客户端输入参数
| 用户配置参数项 | 描述 | 取值类型 | 是否必选 | 是否AIAK特有 | 默认值 | 取值范围 |
|---|---|---|---|---|---|---|
| model | 要使用的模型ID。 | str | 是 | 否 | 无 | |
| prompt | 用于生成结果的提示内容。 | str | 是 | 否 | 无 | |
| best_of | 生成多个结果并返回最佳的一个。 | int | 否 | 否 | 1 | best_of 必须大于 n |
| echo | 是否在输出中包含提示内容。 | bool | 否 | 否 | FALSE | |
| frequency_penalty | 控制重复内容的生成 | float | 否 | 否 | 0 | -2.0 到 2.0 |
| logit_bias | 调整特定token出现的概率。 | map | 否 | 否 | null | -100 到 100 |
| logprobs | 返回最可能的token及其对数概率。 | int | 否 | 否 | null | 整数,最大值为5。 |
| max_tokens | 生成的最大token数。 | int | 否 | 否 | 16 | 整数 |
| n | 为每个提示生成的结果数量。 | int | 否 | 否 | 1 | 整数 |
| presence_penalty | 鼓励生成新内容 | float | 否 | 否 | 0 | -2.0 到 2.0 |
| seed | 指定随机种子以获得可重复的结果。 | int | 否 | 否 | null | |
| stop | 指定生成结束的token | str | 否 | 否 | null | |
| stream | 是否以流式方式返回生成结果。 | bool | 否 | 否 | FALSE | |
| stream_options | 流式响应的附加选项。 | object | 否 | 否 | null | |
| suffix | 结果后附加的后缀内容。仅支持特定模型。 | str | 否 | 否 | null | |
| temperature | 控制生成的随机性 | float | 否 | 否 | 1 | 0 到 2.0 |
| top_p | 使用核采样方法,考虑累积概率为top_p的token。 | float | 否 | 否 | 1 | 0 到 1.0 |
| user | 终端用户的唯一标识符。 | str | 否 | 否 | 无 |
客户端输出参数
| 输出参数项名称 | 描述 | 取值类型 | 是否AIAK特有 |
|---|---|---|---|
| id | 响应的唯一标识符,用于标识此次请求的结果 | str | |
| choices | 模型为输入提示生成的结果选项列表。 | array | |
| created | 响应生成的时间戳(Unix 时间,秒为单位) | int | |
| model | 用于生成结果的模型名称。 | str | |
| system_fingerprint | 后端配置的指纹标识,可与 seed 请求参数结合使用。 | str | |
| object | 对象类型,为“text_completion”。 | str | |
| usage | 结果请求的使用统计信息。 | object | |
| completion_tokens | 生成的结果中使用的token数量。 | int | |
| prompt_tokens | 提示中使用的token数量。 | int | |
| total_tokens | 请求中使用的token总数(提示+结果)。 | int | |
| completion_tokens_details | 结果中使用的token的详细。 | object | |
| prompt_tokens_details | 输入提示中使用的token的详细信息。 | object | |
| sentence_length | 返回句子的总长度(字符数)。 | int | 是 |
| cum_log_probs | 生成token的对数概率(log_probs)之和。 | float | 是 |
监控指标参数
| 中文指标 | 英文指标 | 指标定义 |
|---|---|---|
| 请求总数(Total) | Count of successfully receives requests | vllm:request_total |
| 平均处理请求耗时 | End to end request latency in seconds | vllm:e2e_request_latency_seconds |
| 处理的成功请求总数(Success) | Count of successfully processed requests | vllm:request_process_success_total |
| 推理请求处理执行时间 | Inference compute infer duration in seconds | vllm:inference_compute_infer_duration |
| 推理服务每秒请求数(Failed) | Count of failed processed requests | vllm:request_process_fail_total |
| 首token时间(秒) | Time to first token in seconds | vllm:time_to_first_token_seconds |
| 每个输出token的时间 | Time per output token in seconds | vllm:time_per_output_token_seconds |
| 处理的输入token数 | Prefill tokens processed | vllm:request_prompt_tokens |
| 处理的生成token数 | Generation tokens processed | vllm:request_generation_tokens |
| 返回的输出序列数 | The n request parameter | vllm:request_params_n |
| 来自引擎的累计抢占次数 | Cumulative number of preemption from the engine | vllm:num_preemptions_total |
| 输入token数 | Number of prefill tokens processed | vllm:prompt_tokens_total |
| 输出生成token数 | Number of generation tokens processed | vllm:generation_tokens_total |
| 接收到成功请求总数 | Count of successfully receives requests | vllm:request_success_total |
| LoRA模型请求总数 | Total number of LoRA model requests | vllm:lora_count |
| LoRA模型的请求总时间 | Total request time for the LoRA model | vllm:lora_time_e2e_requests |
