按量后付费
概述
千帆ModelBuilder预置推理服务支持多种灵活的计费方式,本章主要为按量后付费的计费方式,其他计费方式可移步至:
Tokens量包预付费 TPM配额预付费 TPM配额后付费
按量后付费根据实际接口调用产生的tokens或图片数量以及单价进行计费,不同预置服务调用单价不同,大语言模型根据实际的输入及输出总和tokens数量,系统每小时会对您的百度智能云账户进行扣费。
计费方式介绍
以大语言模型为例:
定义 | 付费方式 | 适用范围 |
---|---|---|
调用模型服务时根据实际的输入和输出tokens总量收费。 | 后付费,按分钟计费,每15分钟扣费,每小时出账。 | 临时性调用,无法评估业务体量。 |
不论是Tokens用量付费还是TPM&RPM配额付费,都存在接口调用速率限制。速率限制包含QPS和TPM的形式,旨在限制单位时间段内用户访问推理API的次数和消耗的tokens数,详细说明参考千帆ModelBuilder流量限制说明。
按量后付费
推荐工具:千帆token计算器
包括文心大语言模型、第三方大语言模型、第三方文生图大模型、向量API调用服务、重排序类模型和千帆团队自研模型。
1.文心大语言模型
ERNIE AppBuilder服务需配合百度智能云千帆AppBuilder产品进行应用开发调试,千帆ModelBuilder不计费。
模型名称 | 版本名称 | 服务内容 | 子项 | 单价 |
ERNIE 4.0 Turbo | ERNIE-4.0-Turbo-128K ERNIE-4.0-Turbo-8K ERNIE-4.0-Turbo-8K-Preview ERNIE-4.0-Turbo-8K-0628 |
推理服务 | 输入 | 0.02元/千tokens |
输出 | 0.06元/千tokens | |||
ERNIE 4.0 | ERNIE-4.0-8K ERNIE-4.0-8K-0613 ERNIE-4.0-8K-Latest ERNIE-4.0-8K-Preview |
推理服务 | 输入 | 0.03元/千tokens |
输出 | 0.09元/千tokens | |||
ERNIE 3.5 | ERNIE 3.5-128K ERNIE 3.5-8K ERNIE 3.5-8K-0701 ERNIE 3.5-8K-Preview ERNIE 3.5-8K-0613 |
推理服务 | 输入 | 0.0008元/千tokens |
输出 | 0.002元/千tokens | |||
ERNIE Speed Pro | ERNIE-Speed-Pro-128K | 推理服务 | 输入 | 0.0003元/千tokens |
输出 | 0.0006元/千tokens | |||
ERNIE Novel | ERNIE-Novel-8K | 推理服务 | 输入 | 0.04元/千tokens |
输出 | 0.12元/千tokens | |||
ERNIE Speed | ERNIE-Speed-128K ERNIE-Speed-8K |
推理服务 | 输入 | 免费 |
输出 | 免费 | |||
tokenizer公有云在线调用 | ERNIE系列大模型token长度计算接口 | 推理服务 | - | 0.0006元/千tokens |
ERNIE Lite | ERNIE-Lite-8K | 推理服务 | 输入 | 免费 |
输出 | 免费 | |||
ERNIE Tiny | ERNIE-Tiny-8K | 推理服务 | 输入 | 免费 |
输出 | 免费 | |||
ERNIE Functions | ERNIE-Functions-8K | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens | |||
ERNIE Character | ERNIE-Character-Fiction-8K ERNIE-Character-8K |
推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens | |||
ERNIE Lite Pro | ERNIE-Lite-Pro-128K | 推理服务 | 输入 | 0.0002元/千tokens |
输出 | 0.0004元/千tokens |
Tips:2024年5月21日起,以上部分ERNIE系列预置服务调用免费,详细信息和常见问题可查看平台公告。
需注意: 如API调用文心大模型时,function和system参数的输入,都需要按照tokens计费,相关计算逻辑可查看参考文档。
对于ERNIE3.5、ERNIE4.0、ERNIE4.0 Turbo 系列模型,触发检索的需要单独计费0.008元/次,即:
整体费用= 搜索次数 X 搜索单价 + 总token数 X tokens按量后付费单价。
2.第三方大语言模型
包含有千帆ModelBuilder团队增强版大模型服务。
模型 | 服务内容 | 单价 |
---|---|---|
BLOOMZ-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Meta-Llama-3-8B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Meta-Llama-3-70B | 大模型公有云在线调用体验服务 | 0.035元/千tokens |
Llama-2-7B-Chat | 公有云在线调用体验服务 | 0.004元/千tokens |
Llama-2-13B-Chat | 公有云在线调用体验服务 | 0.006元/千tokens |
Llama-2-70B-Chat | 公有云在线调用体验服务 | 0.035元/千tokens |
ChatGLM2-6B-32K | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
AquilaChat-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Mixtral-8x7B-Instruct | 大模型公有云在线调用体验服务 | 0.035元/千tokens |
SQLCoder-7B | 公有云在线调用体验服务 | 0.004元/千tokens |
CodeLlama-7B-Instruct | 公有云在线调用体验服务 | 0.004元/千tokens |
XuanYuan-70B-Chat-4bit | 公有云在线调用体验服务 | 0.035元/千tokens |
Qianfan-BLOOMZ-7B-compressed | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-13B | 公有云在线调用体验服务 | 0.006元/千tokens |
ChatLaw | 公有云在线调用体验服务 | 0.008元/千tokens |
Yi-34B-Chat | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
Gemma-7B-it | 公有云在线调用体验服务 | 0.004元/千tokens |
Fuyu-8B | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
3.第三方文生图大模型
模型 | 服务内容 | 单价 |
---|---|---|
Stable-Diffusion-XL | 大模型公有云在线调用服务 | 0.02元/秒,具体计算逻辑,参考下表。 |
按当前计费逻辑,例如生成768x768尺寸的图片,大模型通用耗时为3秒,则费用为3x0.02=0.06元,其他计费逻辑以此类推:
图片尺寸 | 单图定价 |
---|---|
768x768、576x1024、1024x576 | 3秒/张 * ¥0.02元/秒=¥0.06元/张 |
768x1024、1024x768、1024x1024 | 4秒/张 * ¥0.02元/秒=¥0.08元/张 |
1536x1536、1152x2048、2048x1152 | 6秒/张 * ¥0.02元/秒=¥0.12元/张 |
1536x2048、2048x1536、2048x2048 | 8秒/张 * ¥0.02元/秒=¥0.16元/张 |
4.向量模型
向量模型服务可通过API进行调用,点击模型名称,查看API文档。
模型 | 服务内容 | 单价 |
---|---|---|
Embedding-V1 | 公有云在线调用服务 | 0.0005元/千tokens |
bge-large-zh | 公有云在线调用体验服务 | 0.0005元/千tokens |
bge-large-en | 公有云在线调用体验服务 | 0.0005元/千tokens |
tao-8k | 公有云在线调用体验服务 | 0.0005元/千tokens |
5.重排序类模型
模型 | 服务内容 | 单价 |
---|---|---|
bce-reranker-base | 公有云在线调用体验服务 | 0.0005元/千tokens |
6.千帆ModelBuilder创新模型
模型 | 服务内容 | 单价 |
---|---|---|
Qianfan-Dynamic-8k | 公有云在线调用体验服务 | 输入:¥0.004元/千tokens 输出:¥0.008元/千tokens |
价格费用举例
示例1:Tokens后付费:ERNIE-3.5-8K大模型公有云在线调用服务(输出)
如大模型回复总计tokens为20,
则输出的计费价格为 0.002(单价) x 0.02千tokens = 0.0004 元