模型蒸馏
更新时间:2026-04-02
模型蒸馏支持数据蒸馏和知识蒸馏两部分
知识蒸馏
知识蒸馏是指学生模型学习真实标签(硬标签)和教师模型的输出概率分布(软标签);其费用根据模型精调资源实例占用时长按小时后付费
| 计费项目 | 说明 | 单价 |
| 模型精调资源实例 | 大模型公有云训练服务-按小时计费 |
(5折后)112元/小时 最小计量粒度为0.01小时,不足0.01小时按0.01小时计算。 |
数据蒸馏
数据蒸馏通过调用教师模型产生问答对,再通过精调得到成本更低、特定任务效果更好的学生模型;其费用主要包括构建蒸馏数据集以及进行学生模型的训练两个核心环节。
构建蒸馏数据(批量推理)价格限时4折优惠、训练学生模型(模型精调)价格限时5折优惠,文心大模型部分训练支持闲时调度。
价格费用举例
最大蒸馏费用预估
- 计算公式 = 构造蒸馏数据价格 + 训练学生模型价格 =
( 教师模型的最大输入长度tokens / 1000 × 原始数据样本数 × 教师模型批量推理输入单价
+
教师模型的最大输出长度tokens / 1000 × 原始数据样本数 × 教师模型批量推理输出单价 )
+
( 训练学生模型的序列长度 / 1000 × 转换token平均系数 × 平均序列长度系数 × 原始数据样本数 × Epoch(迭代轮次) × 训练单价 )
注意:在蒸馏数据构建过程中,如用户主动发起终止操作,将按实际使用量进行计费;学生模型训练过程中途停止亦遵循相同计费规则。若因其他原因导致批量推理或模型训练中断,相关服务将不计费。
转换token平均系数:由于字符和token不等价,在预估费用中千帆平台提供了一个默认值做字符数与token数的转换,用于后续的费用预估。
平均序列长度系数:由于批量推理生成长度具有随机性,千帆平台基于模型精调训练历史数据计算预估系数,用于最大费用的估计。
示例:教师模型DeepSeek-R1构建蒸馏数据 + 训练学生模型ERNIE-Speed-8K全量更新
原始数据样本数:1000
- 预估价格计算方式 =
( 65536 / 1000 × 1000 × 0.0008
+
8192 / 1000 × 1000 × 0.0032 )
+
( 8192 / 1000 × 1000 × 0.6 × 0.5 × 2Epoch(迭代轮次) × 0.03 ) = 226.0992元
计算公式参考最大蒸馏费用预估。构建蒸馏数据价格限时4折优惠、训练学生模型价格限时5折优惠,预计折前原价为491.52元。
构建蒸馏数据相关计费依赖
鉴于构建蒸馏数据过程中实际调用了批量推理模块,依据相关计费规则,该部分将按照批量推理的计费标准执行费用结算。具体价格可查看模型服务计费批量推理计费标准。
训练学生模型相关计费依赖
鉴于训练学生模型过程中实际调用了模型精调模块,依据相关计费规则,该部分将按照模型精调的计费标准执行费用结算。具体价格可查看模型精调计费SFT-文本生成计费标准。
评价此篇文章
