百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

百度百舸 · AI计算平台

更新日志

更新时间：2025-02-05

更新日志

v2.3.0

新增
新增V1架构，性能提升
优化
修复多模态模型无法输入视频url问题
已知问题
使用V1时Deepseek-v1服务启动失败

v2.0.2

新增
1. 支持更多模型的MultiLoRA功能，如Qwen2-72B、Qwen2.5等
2. 支持对齐社区的资源类监控和服务类监控，并可以自定义配置监控大盘
3. 支持Qwen2-72B模型的MultiLoRA
4. 支持分LoRA查看自定义部署监控
优化
Multi-LoRA，新增Multi-LoRA中Base+各LoRA部分在同一张表格查看指标监控

v2.0.1

新增
1. 量化工具除Smoothquant外，支持GPTQ、AWQ、Weightonly-INT4、Weightonly-INT8、FP8
2. 支持Pipeline_Parallel、chunk-prefill相关加速能力
3. 支持Prefix Caching功能
优化
1. Multi-LoRA，新增Multi-LoRA各LoRA部分的指标监控
2. Multi-LoRA，热更新和更新失败时保持原有服务稳定
3. 多芯能力，支持NVIDIA GPUs、AMD CPUs&GPUs、Intel CPUs&GPUs、PowerPC CPUs、TPU
删除

移除了Sidecar转接triton的模块

v1.3.5

新增

MultiLoRA支持数量上限更新为15
支持frequency_penalty提高模型请求补偿项可选性
支持ignore_eos 参数功能优化结束符号超时问题

修复

修复MultiLoRA名称输入错误、新增路径错误等情况影响推理服务问题，更新MultiLoRA失败时保持原有服务稳定

v1.3.4

新增

支持Qwen2系列模型
支持multi-lora，新增multi-lora指标监控、multi-lora模型请求（启动triton 参数增加max_num_seqs、max_num_batched_tokens参数）

修复

修复镜像编译中缺失的环境变量

优化

优化运行case出现端口被占用的问题

v1.3.3

新增

qwen1.5 支持Medusa投机采样推理模式，小batch场景下平均性能相比开源模型提升1.5倍
支持设置输出结果为非流式返回
支持设置模型推理支持的最大长度token数量，新增max_num_seqs、max_num_batched_tokens、max_model_len三个配置参数

修复

修复自动扩缩容发现的triton hang问题

v1.3.2

新增

支持Qwen 1.5 0.5_B/_1.8_B/_4_B/_7_B/14B/72B，_InternLM2-20B以及Mixtral-7Bx8等模型
量化工具新增KV cache FP8，吞吐平均性能提升25%+
昇腾910B芯片适配，推理加速后的极限吞吐达到A800的0.7倍
提供配套推理性能测试工具performance-tool ，可覆盖极限吞吐、首token 延迟测试场景

性能提升

对运行时和请求调度优化，吞吐性能提升10%+
Llama1/2 支持Medusa投机采样推理模式，低延迟场景下平均性能相比开源模型提升1.5倍

高级功能附录