更新日志
更新时间:2024-11-07
更新日志
v2.0.1
-
新增
- 量化工具除Smoothquant外,支持GPTQ、AWQ、Weightonly-INT4、Weightonly-INT8、FP8
- 支持Pipeline_Parallel、chunk-prefill相关加速能力
- 支持Prefix Caching功能
-
优化
- Multi-LoRA,新增Multi-LoRA各LoRA部分的指标监控
- Multi-LoRA,热更新和更新失败时保持原有服务稳定
- 多芯能力,支持NVIDIA GPUs、AMD CPUs&GPUs、Intel CPUs&GPUs、PowerPC CPUs、TPU
-
删除
- 移除了Sidecar转接triton的模块
v1.3.5
- 新增
MultiLoRA支持数量上限更新为15
支持frequency_penalty提高模型请求补偿项可选性
支持ignore_eos 参数功能优化结束符号超时问题
- 修复
修复MultiLoRA名称输入错误、新增路径错误等情况影响推理服务问题,更新MultiLoRA失败时保持原有服务稳定
v1.3.4
- 新增
支持Qwen2系列模型
支持multi-lora,新增multi-lora指标监控、multi-lora模型请求(启动triton 参数增加max_num_seqs、max_num_batched_tokens参数)
- 修复
修复镜像编译中缺失的环境变量
- 优化
优化运行case出现端口被占用的问题
v1.3.3
- 新增
qwen1.5 支持Medusa投机采样推理模式,小batch场景下平均性能相比开源模型提升1.5倍 支持设置输出结果为非流式返回 支持设置模型推理支持的最大长度token数量,新增max_num_seqs、max_num_batched_tokens、max_model_len三个配置参数
- 修复
修复自动扩缩容发现的triton hang问题
v1.3.2
- 新模型支持
支持Qwen 1.5 0.5_B/_1.8_B/_4_B/_7_B/14B/72B,_InternLM2-20B以及Mixtral-7Bx8等模型
- 量化工具
新增KV cache FP8,吞吐平均性能提升25%+
- 多芯适配
昇腾910B芯片适配,推理加速后的极限吞吐达到A800的0.7倍
- 性能测试工具
提供配套推理性能测试工具performance-tool ,可覆盖极限吞吐、首token 延迟测试场景
- 性能提升
- 对运行时和请求调度优化,吞吐性能提升10%+
- Llama1/2 支持Medusa投机采样推理模式,低延迟场景下平均性能相比开源模型提升1.5倍