模型蒸馏
模型蒸馏的费用主要包括构建蒸馏数据集以及进行学生模型的训练两个核心环节。
构建蒸馏数据(批量推理)价格限时4折优惠、训练学生模型(模型精调)价格限时5折优惠,文心大模型部分训练支持闲时调度。
价格费用举例
最大蒸馏费用预估
- 计算公式 = 构造蒸馏数据价格 + 训练学生模型价格 =
( 教师模型的最大输入长度tokens / 1000 × 原始数据样本数 × 教师模型批量推理输入单价
+
教师模型的最大输出长度tokens / 1000 × 原始数据样本数 × 教师模型批量推理输出单价 )
+
( 训练学生模型的序列长度 / 1000 × 转换token平均系数 × 平均序列长度系数 × 原始数据样本数 × Epoch(迭代轮次) × 训练单价 )
注意:在蒸馏数据构建过程中,如用户主动发起终止操作,将按实际使用量进行计费;学生模型训练过程中途停止亦遵循相同计费规则。若因其他原因导致批量推理或模型训练中断,相关服务将不计费。
转换token平均系数:由于字符和token不等价,在预估费用中千帆平台提供了一个默认值做字符数与token数的转换,用于后续的费用预估。
平均序列长度系数:由于批量推理生成长度具有随机性,千帆平台基于模型精调训练历史数据计算预估系数,用于最大费用的估计。
示例:教师模型DeepSeek-R1构建蒸馏数据 + 训练学生模型ERNIE-Speed-8K全量更新
原始数据样本数:1000
- 预估价格计算方式 =
( 65536 / 1000 × 1000 × 0.0008
+
8192 / 1000 × 1000 × 0.0032 )
+
( 8192 / 1000 × 1000 × 0.6 × 0.5 × 2Epoch(迭代轮次) × 0.03 ) = 226.0992元
计算公式参考最大蒸馏费用预估。构建蒸馏数据价格限时4折优惠、训练学生模型价格限时5折优惠,预计折前原价为491.52元。
构建蒸馏数据相关计费依赖
教师模型版本 | 最大输入长度 | 最大输出长度 | 现价 |
DeepSeek-R1 | 单条数据支持65536 tokens | 单条数据支持8192 tokens |
输入:0.0008元/千tokens 输出:0.0032元/千tokens |
DeepSeek-V3 | 单条数据支持65536 tokens | 单条数据支持8192 tokens |
输入:0.00032元/千tokens 输出:0.00064元/千tokens |
ERNIE-4.0-Turbo-8K | 单条数据支持6144 tokens | 单条数据支持2048 tokens |
输入:0.008元/千tokens 输出:0.024元/千tokens |
训练学生模型相关计费依赖
ERNIE 4.0 Turbo 百度自研的旗舰级超大规模⼤语⾔模型,综合效果表现出色,广泛适用于各领域复杂任务场景。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ERNIE-4.0-Turbo-8K | 单条数据支持8192 tokens。该模型在性能和效果上表现优异。 | LoRA |
0.05元/千tokens |
0.1元/千tokens | 0.2元/千tokens |
ERNIE 3.5 ERNIE系列旗舰级大规模⼤语⾔模型,覆盖海量中英文语料,具有强大的通用能力。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ERNIE-3.5-8K | 单条数据支持8192 tokens。ERNIE 3.5 旗舰级⼤语⾔模型。 | 全量更新 |
0.05元/千tokens |
0.1元/千tokens | 0.2元/千tokens |
LoRA |
0.015元/千tokens |
0.03元/千tokens | 0.06元/千tokens |
ERNIE Speed 百度自主研发的文心产业级知识增强大语言模型(高性能版),相较ERNIE Lite实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上有显著提升。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ERNIE-Speed-8K | 单条数据支持8192 tokens。模型基于海量高质量数据训练,具有更强的文本理解、内容创作、对话问答等能力。 | 全量更新 |
0.015元/千tokens |
0.03元/千tokens | 0.06元/千tokens |
LoRA |
0.01元/千tokens |
0.02元/千tokens | 0.04元/千tokens | ||
ERNIE-Speed-Pro-128K | 单条数据支持128k tokens。模型基于海量高质量数据训练,具有更强的文本理解、内容创作、对话问答等能力。 | 全量更新 |
0.015元/千tokens |
0.03元/千tokens | 0.06元/千tokens |
LoRA |
0.015元/千tokens |
0.03元/千tokens | 0.06元/千tokens |
ERNIE Lite 百度自主研发的大语言模型,覆盖海量中文数据,具有更强的对话问答、内容创作生成等能力。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ERNIE-Lite-8K-0308 | 单条数据支持8192 tokens。ERNIE Lite的最新版本,对效果和性能都进行了优化,且扩展支持LoRA训练方法。 | 全量更新 |
0.0075元/千tokens |
0.015元/千tokens | 0.03元/千tokens |
LoRA |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens | ||
ERNIE-Lite-128K-0722 | 单条数据支持128k tokens。ERNIE-Lite-128K的最新版本,对效果和性能都进行了优化。 | 全量更新 |
0.01元/千tokenss |
0.02元/千tokens | 0.04元/千tokens |
LoRA |
0.0075元/千tokens |
0.015元/千tokens | 0.03元/千tokens | ||
ERNIE-Lite-128K-0419 | 单条数据支持128k tokens。ERNIE-Lite-128K的最新版本,对效果和性能都进行了优化。 | 全量更新 |
0.01元/千tokens |
0.02元/千tokens | 0.04元/千tokens |
ERNIE Character 百度自研的垂直场景大语言模型,适合游戏NPC、客服对话、对话角色扮演等应用场景,人设风格更为鲜明、一致,指令遵循能力更强,推理性能更优。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ERNIE-Character-8K-250124 | 百度自研的垂直场景大语言模型,适合游戏NPC、客服对话、对话角色扮演等应用场景,人设风格更为鲜明、一致,指令遵循能力更强,推理性能更优。 | 全量更新 |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens |
LoRA |
0.00375元/千tokens |
0.0075元/千tokens | 0.015元/千tokens | ||
ERNIE-Character-Fiction-8K | 单条数据支持8192 tokens。相比ERNIE-Character-8K-0321,在情节演绎和括号文学等指令遵循能力更强。 | 全量更新 |
0.015元/千tokens |
0.03元/千tokens | 0.06元/千tokens |
LoRA |
0.01元/千tokens |
0.02元/千tokens | 0.04元/千tokens | ||
ERNIE-Character-8K-0321 | 单条数据支持8192 tokens。2024年3月21日发布的初始版本。 | 全量更新 |
0.015元/千tokens |
0.03元/千tokens | 0.06元/千tokens |
LoRA |
0.01元/千tokens |
0.02元/千tokens | 0.04元/千tokens | ||
ERNIE-Character-Fiction-8K-1028 | 单条数据支持8192 tokens。在深度扮演能力、剧情创意度等方面能力得到增强,场景更加丰富。 | 全量更新 |
0.015元/千tokens |
0.03元/千tokens | 0.06元/千tokens |
LoRA |
0.01元/千tokens |
0.02元/千tokens | 0.04元/千tokens |
ERNIE Code ERNIE Code是百度自研的代码专精大模型,支持 600+ 种编程语言,在 Go、Java、Python、CPP 等头部语言上优势显著。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ERNIE-Code3-128K | 单条数据支持128k tokens。支持代码续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、动作预测等多项编程相关能力。 | 全量更新 |
0.0025元/千tokens |
0.005元/千tokens | 0.01元/千tokens |
LoRA |
0.0025元/千tokens |
0.005元/千tokens | 0.01元/千tokens |
ERNIE Tiny 百度自研的超高性能大语言模型,精调成本在文心系列模型中最低。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ERNIE-Tiny-8K | 单条数据支持8192 tokens。 | 全量更新 |
0.0025元/千tokens |
0.005元/千tokens | 0.01元/千tokens |
LoRA |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens | ||
ERNIE-Tiny-128K-0929 | 单条数据支持128k tokens。 | 全量更新 |
0.002元/千tokens |
0.004元/千tokens | 0.008元/千tokens |
LoRA |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
DeepSeek DeepSeek是杭州深度求索人工智能基础技术研究有限公司研发的通用AI模型。在知识问答、代码生成、数学计算等方面具备优秀的能力。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
DeepSeek-R1 | 单条数据支持8k tokens。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。 | ||||
LoRA |
0.175元/千tokens |
0.35元/千tokens | 0.7元/千tokens | ||
DeepSeek-R1-Distill-Qwen-32B | 单条数据支持16k tokens。DeepSeek-R1-Distill-Qwen-14B是DeepSeek基于Qwen2.5-32B蒸馏得到的。 | 全量更新 |
0.01元/千tokens |
0.02元/千tokens | 0.04元/千tokens |
LoRA |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens | ||
DeepSeek-R1-Distill-Qwen-14B | 单条数据支持16k tokens。DeepSeek-R1-Distill-Qwen-14B是DeepSeek基于Qwen2.5-14B蒸馏得到的。 | 全量更新 |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens |
LoRA |
0.00375元/千tokens |
0.0075元/千tokens | 0.015元/千tokens | ||
DeepSeek-R1-Distill-Qwen-7B | 单条数据支持16k tokens。DeepSeek-R1-Distill-Qwen-7B是DeepSeek基于Qwen2.5-Math-7B蒸馏得到的。 | 全量更新 |
0.002元/千tokens |
0.004元/千tokens | 0.008元/千tokens |
LoRA |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
Llama Meta AI推出的开源大语言模型。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
Meta-Llama-3.2-1B-128K | 单条数据支持128k tokens。Meta-Llama-3.2-1B针对多语言文本对话进行了优化,包括代理检索和摘要任务,表现优于许多可用的开源和封闭聊天模型。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
Meta-Llama-3.1-8B | 单条数据支持8192tokens。Meta-Llama-3.1-8B是在15T+tokens上训练的80亿参数预训练大语言模型,推理效果整体优于同参数量级开源模型。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
LoRA |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens | ||
Meta-Llama-3-8B | 单条数据支持4096 tokens。Meta-Llama-3-8B在通用能力、知识推理、阅读理解的行业基准测评上表现优异。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
Qianfan-Chinese-Llama-2-13B-v2 | 单条数据支持4096 tokens。千帆团队基于Llama2架构开发的130亿参数预训练大语言模型,在1T+ tokens的高质量自有语料上从零开始训练,支持中英双语。推理效果整体优于同参数量级开源模型。 | 全量更新 |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens |
LoRA |
0.00375元/千tokens |
0.0075元/千tokens | 0.015元/千tokens | ||
Qianfan-Chinese-Llama-2-7B | 单条数据支持4096 tokens。Qianfan-Chinese-Llama-2-7B,千帆团队在Llama-2-7b基础上的中文增强版本。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
LoRA |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens | ||
Qianfan-Chinese-Llama-2-13B-v1 | 单条数据支持4096 tokens。Qianfan-Chinese-Llama-2-13B-v1,千帆团队在Llama-2-13b基础上的中文增强版本。 | 全量更新 |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens |
LoRA |
0.00375元/千tokens |
0.0075元/千tokens | 0.015元/千tokens | ||
Qianfan-Chinese-Llama-2-7B-32K | 千帆团队在Qianfan-Chinese-Llama-2-7B基础上的增强版本,支持32K上下文。 | 全量更新 |
0.002元/千tokens |
0.004元/千tokens | 0.008元/千tokens |
LoRA |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens | ||
Qianfan-Chinese-Llama-2-1.3B | 单条数据支持4096 tokens。Meta-Llama-3-8B在通用能力、知识推理、阅读理解的行业基准测评上表现优异。 | 全量更新 |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens |
Mixtral-8x7B 由Mistral AI发布的首个高质量稀疏专家混合模型 (MOE),模型由8个70亿参数专家模型组成,在多个基准测试中表现优于Llama-2-70B及GPT3.5,能够处理32K上下文,在代码生成任务中表现尤为优异。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
Mixtral-8x7B | 单条数据支持32768 tokens。该版本为支持对话的微调版本。 | 全量更新 |
0.0075元/千tokens |
0.015元/千tokens | 0.03元/千tokens |
SQLCoder-7B 由Defog研发、基于Mistral-7B微调的语言模型,用于将自然语言问题转换为SQL语句,具备优秀的生成效果。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
SQLCoder-7B | 单条数据支持4096 tokens。由Defog研发、基于Mistral-7B微调的语言模型,用于将自然语言问题转换为SQL语句,具备优秀的生成效果。使用Apache 2.0、CC-BY-SA-4.0协议。根据CC-BY-SA-4.0协议要求,您需要将修改后的模型权重在CC-BY-SA-4.0license中开源。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
LoRA |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens |
ChatGLM 智谱AI与清华KEG实验室发布的中英双语对话模型,具备强大的推理性能、效果、较低的部署门槛及更长的上下文,在MMLU、CEval等数据集上相比初代有大幅的性能提升。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
ChatGLM4-9B | 单条数据支持8192 tokens。GLM-4-9B是智谱 AI 推出的预训练模型 GLM-4系列中的开源版本,在语义、数学、推理、代码等多方面的数据集测评中,均表现出较高的性能。 | 全量更新 |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens |
LoRA |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens | ||
ChatGLM3-6B | 单条数据支持4096 tokens。相比前两代,具备更强大的基础模型能力。目前仅支持Prompt+Response数据格式。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
LoRA |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens | ||
ChatGLM2-6B-32K | 在ChatGLM2-6B的基础上进一步强化了对于长文本的理解能力,能够更好的处理最多32K长度的上下文。 | 全量更新 | 暂不支持 | 0.004元/千tokens | 0.008元/千tokens |
ChatGLM2-6B | 单条数据支持4096 tokens。智谱AI与清华KEG实验室发布的中英双语对话模型,具备强大的推理性能、效果、较低的部署门槛及更长的上下文,在MMLU、CEval等数据集上相比初代有大幅的性能提升。 | 全量更新 | 暂不支持 | 0.003元/千tokens | 0.006元/千tokens |
LoRA | 暂不支持 | 0.002元/千tokens | 0.004元/千tokens |
Baichuan2 Baichuan2是百川智能推出的新一代开源大语言模型。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
Baichuan2-7B-Chat | 单条数据支持4096 tokens。Baichuan2-7B-Chat 是在大约 1.2 万亿 tokens 上训练的 70 亿参数模型。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
LoRA |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens | ||
Baichuan2-13B-Chat | 单条数据支持4096 tokens。Baichuan2-13B-Chat 采用2.6万亿tokens的高质量语料训练。 | 全量更新 |
0.005元/千tokens |
0.01元/千tokens | 0.02元/千tokens |
LoRA |
0.00375元/千tokens |
0.0075元/千tokens | 0.015元/千tokens |
BLOOM-7B 业内知名的⼤语⾔模型,由BigScience研发并开源,能够以46种语⾔和13种编程语⾔输出⽂本。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
BLOOM-7B | 单条数据支持2048 tokens。 Qianfan-BLOOMZ-7B,千帆团队在由BigScience研发并开源的BLOOMZ-7B的基础上的中文增强版。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
LoRA |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens |
CodeLlama 由Meta AI研发并开源的一系列文本生成模型,旨在用于一般代码合成和理解。 | |||||
学生模型版本 | 说明 | 训练方法 | 闲时调度价 | 非闲时价(折后价) | 原价 |
CodeLlama-7B | 单条数据支持4096 tokens。由Meta AI研发并开源的一系列文本生成模型,旨在用于一般代码合成和理解,模型参数规模为70亿。 | 全量更新 |
0.0015元/千tokens |
0.003元/千tokens | 0.006元/千tokens |
LoRA |
0.001元/千tokens |
0.002元/千tokens | 0.004元/千tokens |
SFT中大模型训练字符转换token系数为(0.5~0.8)。