平台预置服务调用
概述
千帆大模型平台预置推理服务支持多种灵活的计费方式,整体可以分为:
- 按Tokens用量计费:根据实际接口调用产生的tokens数量以及单价进行计费,不同预置服务tokens调用单价不同。
a. Tokens用量后付费:默认计费方式。
b. Tokens资源包付费:用户提前购买Tokens资源包,优先消耗Tokens资源包当中的tokens余量。购买的Tokens资源包越大,折扣越大。为保障服务调用的稳定性与连续性,Tokens资源包用完以后自动切换至Tokens用量后付费模式。
- 按TPM配额计费:与Tokens用量付费互斥,不可同时存在,TPM&RPM配额付费到期(预付费配额到期)或终止(后付费人工终止)以后,为保障服务调用的稳定性与连续性,会自动切换至Tokens用量后付费模式。根据实际购买/使用的配额时长以及单价进行收费,不同预置服务TPM&RPM配额单价不同。在配额范围内的请求,不再收取tokens用量费用。超过配额范围外的请求会失败,需要用户增购配额。针对Tokens用量计费模式速率不满足业务的场景,可以通过TPM&RPM配额计费模式支持。
a. TPM配额预付费:针对有稳定Tokens用量的客户,购买TPM预付费配额更加经济实惠。
b. TPM配额后付费:可以在TPM预付费配额的基础上,再增购TPM&RPM后付费配额,以应对短时间的峰值流量。
不论是Tokens用量付费还是TPM&RPM配额付费,都存在接口调用速率限制。速率限制包含QPS和TPM的形式,旨在限制单位时间段内用户访问推理API的次数和消耗的tokens数,详细说明参考千帆大模型平台流量限制说明。
建议结合业务场景灵活选择不同的付费方式,四种计费模式详细说明如下:
Tokens用量后付费
- 定义:调用模型服务时根据实际的输入和输出tokens总量收费。
- 付费方式:后付费,按分钟计费,每15分钟扣费,每小时出账。
- 适用范围:临时性调用,无法评估业务体量。
包括文心大语言模型、第三方大语言模型、第三方文生图大模型和向量API调用服务。
1.文心大语言模型
模型 | 服务内容 | 子项 | 单价 |
ERNIE-4.0-8K | 推理服务 | 输入 | 0.12元/千tokens (限时优惠,原价0.15元/千tokens) |
输出 | 0.12元/千tokens (限时优惠,原价0.3元/千tokens) |
||
ERNIE-3.5-8K | 推理服务 | 输入 | 0.012元/千tokens |
输出 | 0.012元/千tokens | ||
ERNIE-Lite-8K-0922 | 推理服务 | 输入 | 0.008元/千tokens |
输出 | 0.008元/千tokens (限时优惠,原价0.012元/千tokens) |
||
ERNIE Speed-AppBuilder | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens (限时优惠,原价0.012元/千tokens) |
||
tokenizer公有云在线调用: ERNIE-Bot系列大模型token长度计算接口 |
推理服务 | - | 0.0006元/千tokens |
ERNIE-Speed-8K | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens | ||
ERNIE-3.5-4K-0205 | 推理服务 | 输入 | 0.012元/千token |
输出 | 0.012元/千tokens | ||
ERNIE-3.5-8K-0205 | 推理服务 | 输入 | 0.024元/千tokens |
输出 | 0.048元/千tokens | ||
ERNIE-3.5-8K-1222 | 推理服务 | 输入 | 0.012元/千tokens |
输出 | 0.012元/千tokens | ||
ERNIE-Lite-8K | 推理服务 | 输入 | 0.003元/千tokens |
输出 | 0.006元/千tokens | ||
ERNIE-Speed-128k(预览版) | 推理服务 | 输入 | 0.004元/千tokens (限时优惠) |
输出 | 0.008元/千tokens (限时优惠) |
||
ERNIE-Tiny-8k | 推理服务 | 输入 | 0.001元/千tokens |
输出 | 0.001元/千tokens | ||
ERNIE-4.0-8K-Preview | 推理服务 | 输入 | 0.12元/千tokens |
输出 | 0.12元/千tokens | ||
ERNIE-3.5-8K-Preview | 推理服务 | 输入 | 0.012元/千tokens |
输出 | 0.012元/千tokens | ||
ERNIE-Character-8K | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens | ||
ERNIE-Function-8K | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens |
需注意:如API调用文心大模型时,function和system参数的输入,都需要按照tokens计费,相关计算逻辑可查看参考文档。
2.第三方大语言模型
包含有千帆团队增强版大模型服务。
模型 | 服务内容 | 单价 |
---|---|---|
BLOOMZ-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Meta-Llama-3-8B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Meta-Llama-3-70B | 大模型公有云在线调用体验服务 | 0.035元/千tokens |
Llama-2-7B-Chat | 公有云在线调用体验服务 | 0.004元/千tokens |
Llama-2-13B-Chat | 公有云在线调用体验服务 | 0.006元/千tokens |
Llama-2-70B-Chat | 公有云在线调用体验服务 | 0.035元/千tokens |
ChatGLM2-6B-32K | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
AquilaChat-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Mixtral-8x7B-Instruct | 大模型公有云在线调用体验服务 | 0.035元/千tokens |
SQLCoder-7B | 公有云在线调用体验服务 | 0.004元/千tokens |
CodeLlama-7B-Instruct | 公有云在线调用体验服务 | 0.004元/千tokens |
XuanYuan-70B-Chat-4bit | 公有云在线调用体验服务 | 0.035元/千tokens |
Qianfan-BLOOMZ-7B-compressed | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-13B | 公有云在线调用体验服务 | 0.006元/千tokens |
ChatLaw | 公有云在线调用体验服务 | 0.008元/千tokens |
Yi-34B-Chat | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
Gemma-7B-it | 公有云在线调用体验服务 | 0.004元/千tokens |
Fuyu-8B | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
bce-reranker-base | 公有云在线调用体验服务 | 0.002元/千tokens |
注意:平台已预置多款模型版本,部署成服务时,需要收取私有资源池租赁费,服务发布成功后,调用免费。
3.第三方文生图大模型
模型 | 服务内容 | 单价 |
---|---|---|
Stable-Diffusion-XL | 大模型公有云在线调用服务 | 0.02元/秒,具体计算逻辑,参考下表。 |
按当前计费逻辑,例如生成768x768尺寸的图片,大模型通用耗时为3秒,则费用为3x0.02=0.06元,其他计费逻辑以此类推:
图片尺寸 | 单图定价 |
---|---|
768x768、576x1024、1024x576 | 3秒/张 * ¥0.02元/秒=¥0.06元/张 |
768x1024、1024x768、1024x1024 | 4秒/张 * ¥0.02元/秒=¥0.08元/张 |
1536x1536、1152x2048、2048x1152 | 6秒/张 * ¥0.02元/秒=¥0.12元/张 |
1536x2048、2048x1536、2048x2048 | 8秒/张 * ¥0.02元/秒=¥0.16元/张 |
4.向量模型
向量模型服务可通过API进行调用,点击模型名称,查看API文档。
模型 | 服务内容 | 单价 |
---|---|---|
Embedding-V1 | 公有云在线调用服务 | 0.002元/千tokens |
bge-large-zh | 公有云在线调用体验服务 | 0.002元/千tokens |
bge-large-en | 公有云在线调用体验服务 | 0.002元/千tokens |
tao-8k | 公有云在线调用体验服务 | 0.002元/千tokens |
5.抢占式在线服务
平台支持通过API接口提交批量推理任务,适用大量样本异步推理的场景。
模型 | 服务内容 | 单价 |
---|---|---|
ERNIE 3.5 | 抢占式在线服务 | 输入:0.0048元/千tokens 输出:0.0048元/千tokens |
ERNIE 4.0 | 抢占式在线服务 | 输入:0.048元/千tokens 输出:0.048元/千tokens |
Tokens量包预付费
- 定义:一次性购买一定数量的tokens资源包,有效期内调用模型服务时优先抵扣资源包当中的tokens余量,tokens资源包如果到期未用完,会当做过期作废处理。
- 付费方式:预付费,单价略低于Tokens用量后付费,购买tokens资源包越大,单价越低。
- 适用范围:稳定调用,具有一定规模的业务体量。
- 平滑过度策略:预付费购买的Tokens资源包到期或耗尽后,服务付费方式自动切换至Tokens用量后付费模式。
当前包含ERNIE 4.0、ERNIE-Lite-8k-0922和ERNIE 3.5三个预置服务支持Tokens量包预付费。
1.ERNIE-4.0-8K
可通过购买tokens量包调用服务,最低购入50元(含420千tokens)1个月的套餐,有效期内优先抵扣资源包,资源包耗尽后自动切换至按调用量计费,超过有效期服务无法调用。
- 企业用户:支持通过按量后付费的方式调用服务,无需购买Tokens量包
-
个人用户:
- 截止0328使用过ERNIE-4.0-8K预置服务:支持通过按量后付费的方式调用服务,无需购买Tokens量包
- 截止0328从未使用过ERNIE-4.0-8K预置服务:不支持通过按量后付费的方式调用服务,需购买Tokens量包
当前规格及计费如下所示:
Tokens量 | 有效期 | 原价 | 折扣率 | 折后价 |
---|---|---|---|---|
150万 | 3个月 | ¥180 | -- | ¥180 |
300万 | 6个月 | ¥360 | -- | ¥360 |
600万 | 12个月 | ¥720 | -- | ¥720 |
1000万 | 6个月 | ¥1,200 | 95% | ¥1,140 |
5000万 | 6个月 | ¥6,000 | 92% | ¥5,520 |
1亿 | 12个月 | ¥12,000 | 90% | ¥10,800 |
5亿 | 12个月 | ¥60,000 | 88% | ¥52,800 |
10亿 | 12个月 | ¥120,000 | 85% | ¥102,000 |
购买Tokens预付费配额后,服务RPM和TPM保持不变。
2.ERNIE-Lite-8K-0922
ERNIE-Lite-8K-0922预置服务支持购买tokens量包,优先消耗资源包,按量后付费内容可查看计费说明。
当前规格及计费如下所示:
Tokens量 | 有效期 | 原价 | 折扣率 | 折后价 |
---|---|---|---|---|
1000万 | 6个月 | ¥80 | 95% | ¥76 |
5000万 | 6个月 | ¥400 | 92% | ¥368 |
1亿 | 12个月 | ¥800 | 90% | ¥720 |
5亿 | 12个月 | ¥4,000 | 88% | ¥3,520 |
10亿 | 12个月 | ¥8,000 | 85% | ¥6,800 |
购买Tokens预付费配额后,服务RPM和TPM保持不变。
3.ERNIE-3.5-8K
ERNIE-3.5-8K Tokens预置服务支持购买tokens量包,优先消耗资源包,按量后付费内容可查看计费说明。
当前规格及计费如下所示:
Tokens量 | 有效期 | 原价 | 折扣率 | 折后价 |
---|---|---|---|---|
1000万 | 6个月 | ¥120 | 95% | ¥114 |
5000万 | 6个月 | ¥600 | 92% | ¥552 |
1亿 | 12个月 | ¥1,200 | 90% | ¥1,080 |
5亿 | 12个月 | ¥6,000 | 88% | ¥5,280 |
10亿 | 12个月 | ¥12,000 | 85% | ¥10,200 |
购买Tokens预付费配额后,服务RPM和TPM保持不变。
TPM配额预付费
预付费购买特定时段的TPM配额,购买后即刻生效,特定时段内调用服务不再额外收费,到期后自动切换至按量后付费。1个规格的TPM&RPM包含 10,000 TPM,33 RPM,可以购买多个规格提升TPM&RPM。
购买成功后,服务的TPM&RPM由默认值切换至购买值。(注意这里购买值和默认值不叠加,而是切换)
当前规格(预付费包月)及计费如下所示:
服务名称 | 规格内容 | 购买规格包数量 | 价格 |
---|---|---|---|
ERNIE-4.0-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥27,000 |
ERNIE-Lite-8K-0922 购买入口 | 10,000 TPM,33 RPM | 1 | ¥1,900 |
ERNIE-3.5-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥4,250 |
ERNIE-Speed-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥1,900 |
TPM配额后付费
1个规格的TPM&RPM包含 10,000 TPM,33 RPM,可以购买多个规格提升TPM&RPM。
购买成功后,服务的TPM&RPM由默认值切换至购买值。(注意这里购买值和默认值不叠加,而是切换)
当前规格(后付费按小时)及计费如下所示:
服务名称 | 规格内容 | 购买规格包数量 | 价格 |
---|---|---|---|
ERNIE-4.0-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥55 |
ERNIE-Bot-turbo-0922 购买入口 | 10,000 TPM,33 RPM | 1 | ¥5 |
ERNIE-3.5-8k 购买入口 | 10,000 TPM,33 RPM | 1 | ¥10 |
ERNIE-Speed-8k 购买入口 | 10,000 TPM,33 RPM | 1 | ¥5 |
价格费用举例
ERNIE-4.0-8K Tokens量包配额费用示例
企业用户调用ERNIE-4.0-8K
可通过按量后付费的方式调用服务,输入输出均为0.12元/千tokens(限时优惠)。
服务调用示例
1.文心大模型服务调用支持使用计算工具计算(输入输出)tokens数。
2. 在线服务部署在资源池后,调用仍需付费。
示例1:Tokens后付费:ERNIE-3.5-8K大模型公有云在线调用服务(输出)
如上图的总计tokens为20,
价格为 0.012(单价) x 0.02千tokens = 0.00024 元
TPM&RPM预付费配额示例
示例1:购买ERNIE-4.0-8K TPM&RPM预付费配额
- 购买前,RPM=120,TPM=120,000。
- 购买10个规格的TPM&RPM配额,1个月。
- 购买后,RPM=330,TPM=100,000
- 到期后,自动切换至默认配额RPM=120,TPM=120,000,通过按量后付费的付费方式调用服务。
综上所述,购买10个规格的TPM&RPM预付费配额1个月,总价为:
10(个)x 1(月)x ¥27,000(资源包单价)= ¥270,000
Q&A
Q:应该如何选择预置服务的付费方式?
A: 1. 首先初步结合业务场景自行估算TPM/RPM/QPS的速率要求,如果预置服务默认的速率限制满足业务需求,则可以首选按tokens计费,更为经济;如果速率要求超出了默认的速率配额,则可以购买TPM&RPM包,从而实现速率提升。
2. 如果选择按tokens用量计费,可以进一步灵活选择预付费还是后付费,按照经验来看如果业务比较稳定,首选预付费,折扣力度更大;如果仅仅是前期试用,后付费即可,随用随停。需要注意的是,购买预付费的Tokens资源包,只是多Tokens可用量进行了扩容,并未对调用速率进行扩容。
3. 如果选择购买TPM&RPM配套扩容速率限制,建议购买一定数量的基础预付费TPM&RPM配额,更加经济实惠。如果需要应对业务场景中偶发的突增峰值流量,建议按需搭配灵活数量的后付费配额以应对突增流量。