创建模型压缩任务
更新时间:2024-07-12
目录
1.创建模型压缩任务
2.任务计费说明
3.模型压缩支持范围
创建模型压缩任务
登录到千帆大模型操作台,在左侧功能列选择模型压缩,进入模型压缩主任务界面。
点击“创建压缩任务”按钮,进入新建压缩任务页面。(若没有该按钮,请查看任务计费说明)
由用户填写评估任务所需的基本信息、压缩配置、资源配置。
基本信息
填写压缩任务名称、压缩任务描述。
压缩配置
- 选择源模型: 此处支持选择用户希望压缩的模型,支持从『我的模型』中选择(不支持选择预置模型)。具体支持范围详见模型压缩支持范围 。
- 模型创建方式:选择压缩后模型的保存方式,支持保存为已有模型新版本(默认为最新版本)或保存为新模型(默认V1版本)。
- 选择已有模型:同一模型各版本的基础模型需保持一致,已自动过滤不符合要求的模型。
-
压缩策略:
压缩策略 策略类型 描述 适用范围 量化压缩 INT8-PTQ 同等QPS目标下,降低推理显存占用,INT8代表将模型参数压缩至8位字节 多用于文心系列大模型 W8A16C16 降低推理显存占用,Weight使用int8 多用于第三方开源大模型 W4A16C16 降低推理显存占用,Weight使用int4 多用于第三方开源大模型 稀疏化 比例50% 在同等算力资源下,降低单Token时延、提升QPS
任务计费说明
当前模型压缩功能限时免费。
模型压缩支持范围
模型版本 | 量化压缩 > W8A8C8-PTQ | 量化压缩 > W8A8C16-PTQ | 量化压缩 > W8A16C16 | 量化压缩 > W4A16C16 |
---|---|---|---|---|
ERINE-Lite-128K-0419 | ✓ | |||
ERNIE-Lite-8K-0308 | ✓ | |||
ERNIE-Tiny-8K | ✓ | |||
Qianfan-Chinese-Llama-2-7B | ✓ | ✓ | ||
Qianfan-Chinese-Llama-2-13B-v1 | ✓ | ✓ | ||
BLOOMZ-7B | ✓ | ✓ |
PTQ压缩策略不支持训练时数据来源为BOS,若需要使用该策略,请至数据集管理模块导入至平台数据集。
注意:1. PTQ压缩策略依赖模型精调时所使用的全部数据集,该数据集有删除时无法选择PTQ压缩策略。
2. 量化压缩是一种将模拟量转换为离散量的方法,它可以模型参数的存储字节数压缩。INT8代表将模型参数压缩至8位字节。
3. 2024.5.30以后产出的训练发布的ERNIE模型,默认都是wint8格式。