平台预置服务调用
概述
千帆大模型平台预置推理服务支持多种灵活的计费方式,整体可以分为:
- 按Tokens用量计费:根据实际接口调用产生的tokens数量以及单价进行计费,不同预置服务tokens调用单价不同。
a. 按量后付费:默认计费方式。
b. Tokens资源包付费:用户提前购买Tokens资源包,优先消耗Tokens资源包当中的tokens余量。购买的Tokens资源包越大,折扣越大。为保障服务调用的稳定性与连续性,Tokens资源包用完以后自动切换至Tokens按量后付费模式。ERNIE 4.0系列和ERNIE 3.5系列资源包支持同系列模型不同版本共享。
- 按TPM配额计费:部分预置服务支持购买配额(TPM和Tokens量包),同一时刻只能有一种生效中的配额,生效顺序为TPM > Tokens量包。TPM&RPM配额付费到期(预付费配额到期)或终止(后付费人工终止)以后,为保障服务调用的稳定性与连续性,会自动切换至Tokens按量后付费模式。根据实际购买/使用的配额时长以及单价进行收费,不同预置服务TPM&RPM配额单价不同。在配额范围内的请求,不再收取tokens用量费用。超过配额范围外的请求会失败,需要用户增购配额。针对Tokens用量计费模式速率不满足业务的场景,可以通过TPM&RPM配额计费模式支持。
a. TPM配额预付费:针对有稳定Tokens用量的客户,购买TPM预付费配额更加经济实惠。
b. TPM配额后付费:可以在TPM预付费配额的基础上,再增购TPM&RPM后付费配额,以应对短时间的峰值流量。
不论是Tokens用量付费还是TPM&RPM配额付费,都存在接口调用速率限制。速率限制包含QPS和TPM的形式,旨在限制单位时间段内用户访问推理API的次数和消耗的tokens数,详细说明参考千帆大模型平台流量限制说明。
建议结合业务场景灵活选择不同的付费方式,四种计费模式详细说明如下:
按量后付费
- 定义:调用模型服务时根据实际的输入和输出tokens总量收费。
- 付费方式:后付费,按分钟计费,每15分钟扣费,每小时出账。
- 适用范围:临时性调用,无法评估业务体量。
推荐工具:千帆token计算器
包括文心大语言模型、第三方大语言模型、第三方文生图大模型和向量API调用服务。
1.文心大语言模型
ERNIE AppBuilder服务需配合百度智能云千帆AppBuilder产品进行应用开发调试,千帆大模型平台(ModelBuilder)不计费。
模型 | 服务内容 | 子项 | 单价 |
ERNIE 4.0 Turbo系列 | 推理服务 | 输入 | 0.03元/千tokens |
输出 | 0.06元/千tokens | ||
ERNIE 4.0系列 | 推理服务 | 输入 | 0.04元/千tokens |
输出 | 0.12元/千tokens | ||
ERNIE 3.5系列 | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.012元/千tokens | ||
ERNIE Speed系列 | 推理服务 | 输入 | 免费 |
输出 | 免费 | ||
tokenizer公有云在线调用: ERNIE系列大模型token长度计算接口 |
推理服务 | - | 0.0006元/千tokens |
ERNIE Lite系列 | 推理服务 | 输入 | 免费 |
输出 | 免费 | ||
ERNIE-3.5-128k(预览版) | 推理服务 | 输入 | 0.008元/千tokens |
输出 | 0.024元/千tokens | ||
ERNIE Tiny系列 | 推理服务 | 输入 | 免费 |
输出 | 免费 | ||
ERNIE-Character系列 | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens | ||
ERNIE Function系列 | 推理服务 | 输入 | 0.004元/千tokens |
输出 | 0.008元/千tokens |
Tips:2024年5月21日起,以上部分ERNIE系列预置服务调用免费,详细信息和常见问题可查看平台公告。
需注意: 如API调用文心大模型时,function和system参数的输入,都需要按照tokens计费,相关计算逻辑可查看参考文档。
2.第三方大语言模型
包含有千帆团队增强版大模型服务。
模型 | 服务内容 | 单价 |
---|---|---|
BLOOMZ-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Meta-Llama-3-8B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Meta-Llama-3-70B | 大模型公有云在线调用体验服务 | 0.035元/千tokens |
Llama-2-7B-Chat | 公有云在线调用体验服务 | 0.004元/千tokens |
Llama-2-13B-Chat | 公有云在线调用体验服务 | 0.006元/千tokens |
Llama-2-70B-Chat | 公有云在线调用体验服务 | 0.035元/千tokens |
ChatGLM2-6B-32K | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
AquilaChat-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Mixtral-8x7B-Instruct | 大模型公有云在线调用体验服务 | 0.035元/千tokens |
SQLCoder-7B | 公有云在线调用体验服务 | 0.004元/千tokens |
CodeLlama-7B-Instruct | 公有云在线调用体验服务 | 0.004元/千tokens |
XuanYuan-70B-Chat-4bit | 公有云在线调用体验服务 | 0.035元/千tokens |
Qianfan-BLOOMZ-7B-compressed | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-7B | 大模型公有云在线调用体验服务 | 0.004元/千tokens |
Qianfan-Chinese-Llama-2-13B | 公有云在线调用体验服务 | 0.006元/千tokens |
ChatLaw | 公有云在线调用体验服务 | 0.008元/千tokens |
Yi-34B-Chat | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
Gemma-7B-it | 公有云在线调用体验服务 | 0.004元/千tokens |
Fuyu-8B | 公有云在线调用体验服务 | 限时免费,每个账号每天包含500次调用额度(按调用总次数统计,包括但不限于调用成功的次数)。如需扩容,请使用私有资源池发布该模型,或提交工单说明应用场景、预计月调用量,申请扩充额度。 |
bce-reranker-base | 公有云在线调用体验服务 | 0.0005元/千tokens |
注意:平台已预置多款模型版本,部署成服务时,需要收取私有资源池租赁费,服务发布成功后,调用免费。
3.第三方文生图大模型
模型 | 服务内容 | 单价 |
---|---|---|
Stable-Diffusion-XL | 大模型公有云在线调用服务 | 0.02元/秒,具体计算逻辑,参考下表。 |
按当前计费逻辑,例如生成768x768尺寸的图片,大模型通用耗时为3秒,则费用为3x0.02=0.06元,其他计费逻辑以此类推:
图片尺寸 | 单图定价 |
---|---|
768x768、576x1024、1024x576 | 3秒/张 * ¥0.02元/秒=¥0.06元/张 |
768x1024、1024x768、1024x1024 | 4秒/张 * ¥0.02元/秒=¥0.08元/张 |
1536x1536、1152x2048、2048x1152 | 6秒/张 * ¥0.02元/秒=¥0.12元/张 |
1536x2048、2048x1536、2048x2048 | 8秒/张 * ¥0.02元/秒=¥0.16元/张 |
4.向量模型
向量模型服务可通过API进行调用,点击模型名称,查看API文档。
模型 | 服务内容 | 单价 |
---|---|---|
Embedding-V1 | 公有云在线调用服务 | 0.0005元/千tokens |
bge-large-zh | 公有云在线调用体验服务 | 0.0005元/千tokens |
bge-large-en | 公有云在线调用体验服务 | 0.0005元/千tokens |
tao-8k | 公有云在线调用体验服务 | 0.0005元/千tokens |
Tokens量包预付费
- 定义:一次性购买一定数量的tokens资源包,有效期内调用模型服务时优先抵扣资源包当中的tokens余量,tokens资源包如果到期未用完,会当做过期作废处理。
- 付费方式:预付费,单价略低于按量后付费,购买tokens资源包越大,单价越低。
- 适用范围:稳定调用,具有一定规模的业务体量。
- 平滑过度策略:预付费购买的Tokens资源包到期或耗尽后,服务付费方式自动切换至Tokens按量后付费模式。
Tip:
大规格的量包提供更大的 TPM配额,共享范围内的全部预置服务的TPM配额全部提升。 服务速率限制仅在Tokens量包未耗尽前有效。存在多个量包时,服务速率限制以最大值为准。 |
当前包含ERNIE-4.0-8K、ERNIE-Lite和ERNI-3.5-8K三个系列预置服务支持Tokens量包预付费。
1.ERNIE-4.0-8K系列
ERNIE-4.0系列 Tokens预置服务支持购买tokens量包,优先消耗资源包,按量后付费内容可查看计费说明。生效范围如下:
ERNIE-4.0-8K、ERNIE-4.0-8K-0329、ERNIE-4.0-8K-0104
同基座上下文长度限制相近的预置服务共用Tokens量包。新增的预置服务会自动添加至生效范围,您可在购买界面查看。
当前规格及计费如下所示:
Tokens量 | 服务速率限制 | QPS | 有效期 | 原价 | 折扣率 | 折后价 |
---|---|---|---|---|---|---|
1000万 | TPM = 120K,RPM = 120 | 2 | 6个月 | ¥600 | 90% | ¥540 |
5000万 | TPM = 120K,RPM = 120 | 2 | 6个月 | ¥3,000 | 80% | ¥2,400 |
1亿 | TPM = 240K,RPM = 240 | 4 | 12个月 | ¥6,000 | 80% | ¥4,800 |
5亿 | TPM = 360K,RPM = 360 | 6 | 12个月 | ¥30,000 | 75% | ¥22,500 |
10亿 | TPM = 600K,RPM = 600 | 10 | 12个月 | ¥60,000 | 70% | ¥42,000 |
2.ERNIE-Lite系列
当前ENIIE-Lite支持Tokens后付费免费调用,您可查看相关公告,保持对千帆关注。
ERNIE-Lite系列 Tokens预置服务支持购买tokens量包,优先消耗资源包,按量后付费内容可查看计费说明。生效范围如下:
ERNIE-Lite-8K
同基座上下文长度限制相近的预置服务共用Tokens量包。新增的预置服务会自动添加至生效范围,您可在购买界面查看。
当前规格及计费如下所示:
Tokens量 | 服务速率限制 | 有效期 | 原价 | 折扣率 | 折后价 |
---|---|---|---|---|---|
10亿 | TPM = 480K, RPM = 480 | 12个月 | ¥3,750 | 80% | ¥3,000 |
50亿 | TPM = 960K, RPM = 960 | 12个月 | ¥18,750 | 75% | ¥14,062.5 |
100亿 | TPM = 1200K, RPM = 1200 | 12个月 | ¥37,500 | 70% | ¥26,250 |
3.ERNIE-3.5-8K系列
ERNIE-3.5系列 Tokens预置服务支持购买tokens量包,优先消耗资源包,按量后付费内容可查看计费说明。生效范围如下:
ERNIE-3.5-8K-0701、ERNIE-3.5-8K、ERNIE-3.5-8K-0205、ERNIE-3.5-8K-0329
同基座上下文长度限制相近的预置服务共用Tokens量包。新增的预置服务会自动添加至生效范围,您可在购买界面查看。
当前规格及计费如下所示:
Tokens量 | 服务速率限制 | QPS | 有效期 | 原价 | 折扣率 | 折后价 |
---|---|---|---|---|---|---|
5,000万 | PM = 300K, RPM = 300 | 5 | 6个月 | ¥300 | 92% | ¥276 |
1亿 | TPM = 300K, RPM = 300 | 5 | 12个月 | ¥600 | 90% | ¥540 |
5亿 | TPM = 300K, RPM = 300 | 5 | 12个月 | ¥3,000 | 80% | ¥2,400 |
10亿 | TPM = 480K, RPM = 480 | 8 | 12个月 | ¥6,000 | 80% | ¥4,800 |
50亿 | TPM = 960K, RPM = 960 | 16 | 12个月 | ¥30,000 | 75% | ¥22,500 |
100亿 | TPM = 1,200K, RPM = 1,200 | 20 | 12个月 | ¥60,000 | 70% | ¥42,000 |
TPM配额预付费
预付费购买特定时段的TPM配额,购买后即刻生效,特定时段内调用服务不再额外收费,到期后自动切换至按量后付费。
购买成功后,服务的TPM&RPM由默认值切换至购买值。(注意这里购买值和默认值不叠加,而是切换)
当前规格(预付费包月)及计费如下所示:
服务名称 | 规格内容 | 购买规格包数量 | 价格 |
---|---|---|---|
ERNIE-4.0-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥27,000 |
ERNIE-3.5-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥4,250 |
ERNIE-Speed-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥1,900 |
ERNIE-Speed-128K 购买入口 | 10,000 TPM,2 RPM | 1 | ¥7,600 |
ERNIE-Speed AppBuilder 购买入口 | 10,000 TPM,33 RPM | 1 | ¥1,900 |
ERNIE-4.0-8K-Preview 购买入口 | 10,000 TPM,33 RPM | 1 | ¥27,000 |
ERNIE-4.0-8K-Preview-0518 购买入口 | 10,000 TPM,33 RPM | 1 | ¥27,000 |
ERNIE-3.5-8K-Preview 购买入口 | 10,000 TPM,33 RPM | 1 | ¥4,250 |
ERNIE-Character-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥1,900 |
ERNIE-Lite-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥1,200 |
支持灵活变更配额,当您预期配额不足时,可扩增TPM额度。
TPM配额后付费
购买成功后,服务的TPM&RPM由默认值切换至购买值。(注意这里购买值和默认值不叠加,而是切换)
当前规格(后付费按小时)及计费如下所示:
服务名称 | 规格内容 | 购买规格包数量 | 价格 |
---|---|---|---|
ERNIE-4.0-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥55 |
ERNIE-3.5-8k 购买入口 | 10,000 TPM,33 RPM | 1 | ¥10 |
ERNIE-Speed-8k 购买入口 | 10,000 TPM,33 RPM | 1 | ¥5 |
ERNIE-Speed-128K 购买入口 | 10,000 TPM,2 RPM | 1 | ¥20 |
ERNIE-Speed AppBuilder 购买入口 | 10,000 TPM,33 RPM | 1 | ¥5 |
ERNIE-4.0-8K-Preview 购买入口 | 10,000 TPM,33 RPM | 1 | ¥55 |
ERNIE-4.0-8K-Preview-0518 购买入口 | 10,000 TPM,33 RPM | 1 | ¥55 |
ERNIE-3.5-8K-Preview 购买入口 | 10,000 TPM,33 RPM | 1 | ¥10 |
ERNIE-Character-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥5 |
ERNIE-Lite-8K 购买入口 | 10,000 TPM,33 RPM | 1 | ¥3 |
支持灵活变更配额,可在已购买后付费配额的前提下,扩增TPM额度或降低TPM额度。(Tips提示:两次降配TPM额度操作至少间隔60分钟)。
价格费用举例
ERNIE-4.0-8K Tokens量包配额费用示例
服务调用示例
1.文心大模型服务调用支持使用计算工具计算(输入输出)tokens数。
2. 在线服务部署在资源池后,调用仍需付费。
示例1:Tokens后付费:ERNIE-3.5-8K大模型公有云在线调用服务(输出)
如大模型回复总计tokens为20,
则输出的计费价格为 0.012(单价) x 0.02千tokens = 0.00024 元
TPM&RPM预付费配额示例
示例1:购买ERNIE-4.0-8K TPM&RPM预付费配额
- 购买前,RPM=120,TPM=120,000。
- 购买10个规格的TPM&RPM配额,1个月。
- 购买后,RPM=330,TPM=100,000
- 到期后,自动切换至默认配额RPM=120,TPM=120,000,通过按量后付费的付费方式调用服务。
综上所述,购买10个规格的TPM&RPM预付费配额1个月,总价为:
10(个)x 1(月)x ¥27,000(资源包单价)= ¥270,000
Q&A
Q:应该如何选择预置服务的付费方式?
A: 1. 首先初步结合业务场景自行估算TPM/RPM/QPS的速率要求,如果预置服务默认的速率限制满足业务需求,则可以首选按tokens计费,更为经济;如果速率要求超出了默认的速率配额,则可以购买TPM&RPM包,从而实现速率提升。
2. 如果选择按tokens用量计费,可以进一步灵活选择预付费还是后付费,按照经验来看如果业务比较稳定,首选预付费,折扣力度更大;如果仅仅是前期试用,后付费即可,随用随停。需要注意的是,购买预付费的Tokens资源包,只是多Tokens可用量进行了扩容,并未对调用速率进行扩容。
3. 如果选择购买TPM&RPM配套扩容速率限制,建议购买一定数量的基础预付费TPM&RPM配额,更加经济实惠。如果需要应对业务场景中偶发的突增峰值流量,建议按需搭配灵活数量的后付费配额以应对突增流量。