模型压缩
所有文档
menu

千帆大模型服务与开发平台ModelBuilder

模型压缩

量化压缩策略说明

WxAxCx中W、A、C分别代表模型权重(weight)、激活(activation)和键值缓存(kv cache),数字x代表模型压缩后相应部分的比特数。模型压缩过程后,高比特浮点数会映射到低比特量化空间,从而达到降低显存占用、提升推理性能等目的。

  • 量化方法:开源模型量化主要使用GPTQ、weight-only。
  • 精度说明:未压缩前的精度都是BF16;压缩后精度默认为INT;FP精度特殊标识。举例说明:
策略 权重 激活 KV Cache
W8A16(WINT8) INT8 BF16 BF16
W4A16 INT8 BF16 BF16
Wfp8Afp8Cfp8 FP8 FP8 FP8
W4A6Cfp8 INT4 BF16 FP8

模型压缩支持范围

文心模型

模型版本 量化压缩 > W8A8C8-PTQ 量化压缩 > W8A8C16-PTQ 量化压缩 > W8A16C16 量化压缩 > W4A16C16 稀疏化
ERINE-Lite-128K-0419
ERNIE-Lite-8K-0308
ERNIE-Tiny-8K

开源模型

模型 压缩策略 备注
QWQ-32B W8A8C16、W4A16 注:当部署至V型卡上,上下文长度从32K缩短到8K
Qwen2.5-1.5b-instruct W8A8C16
Qwen2.5-7b-instruct W8A8C16
Qwen2.5-14b-instruct W8A8C16
Qwen2.5-32b-instruct W8A8C16、W4A16
Deepseek-R1-Distill-Qwen-14B W8A16、Wfp8Afp8Cfp8、W4A16Cfp8
Deepseek-R1-Distill-Qwen-7B W8A16、Wfp8Afp8Cfp8、W4A16Cfp8
DeepSeek R1 W8A16 当前仅支持压缩后VII型号卡部署
DeepSeek V3 W8A16 当前仅支持压缩后VII型号卡部署
BLOOMZ-7B W8A16、W4A16、稀疏化>50%

注意:1. PTQ压缩策略依赖模型精调时所使用的全部数据集,该数据集有删除时无法选择PTQ压缩策略。

操作指南

创建模型压缩任务

登录到本平台,在左侧功能列选择模型压缩,进入模型压缩主任务界面。

点击“创建压缩任务”按钮,进入新建压缩任务页面。(若没有该按钮,请查看任务计费说明

image.png

由用户填写评估任务所需的基本信息、压缩配置、资源配置。

image.png

基本信息

填写压缩任务名称、压缩任务描述。

压缩配置

  • 选择源模型: 此处支持选择用户希望压缩的模型,支持从『我的模型』中选择(不支持选择预置模型)。具体支持范围详见模型压缩支持范围
  • 模型创建方式:选择压缩后模型的保存方式,支持保存为已有模型新版本(默认为最新版本)或保存为新模型(默认V1版本)。
  • 选择已有模型:同一模型各版本的基础模型需保持一致,已自动过滤不符合要求的模型。

查看压缩任务详情

进入“模型压缩 > 详情 > 任务详情“中查看压缩任务详情页,回溯压缩任务相关配置。

image.png

查看压缩任务日志

平台支持查看本次模型压缩任务的详细日志。可以查看其从创建开始到任务结束的日志内容,支持下载到本地保存(txt格式)。

以下为部分日志展示:

image.png

可通过日志查看报错,调整任务配置重新发起;或在提交工单时,粘贴日志中的报错由百度技术服务团队协助排查。

压缩任务计费说明

当前模型压缩功能限时免费。

上一篇
我的模型
下一篇
模型评估