在线服务
平台支持将模型发布为在线服务,同时在服务发布后对服务进行详情查看和版本更新等操作。
登录到本平台,在左侧功能列选择模型推理,进入服务管理主任务界面。
预置服务
您可在此处查询到目前所有的预置服务,可以选择开通付费或者终止付费,也可以跳转到相关API文档进行参考,日志投递可查看更多信息内容。
部分文心模型服务已由QPS切换为TPM,相关速率限制的具体概念解释可点击参考文档。
发布服务
若您需要发布专属服务,选择我的服务模块中的创建服务按钮,跳转至服务发布界面。
服务配置
当模型发布为在线服务后,该模型下不同的模型版本仅能在此在线服务URL下更新版本,且仅支持同种大模型算法进行更新服务,建议您在训练时,同一训练任务使用相同的基础大模型进行训练。
字段 | 内容 | 描述 |
---|---|---|
服务名称 | 用户定义的服务名称 | 必填项,不超过20字,支持中英文 |
服务描述 | 用户定义的服务描述 | 非必填,最多支持300个字符 |
选择模型 | 模型名称 | 必选项,选择对应发布的模型,可以是运行成功的自训练模型或预置模型,并选定模型版本 |
API地址 | 用户定义的接口地址 | 必填项,仅支持英文,接口地址需要多于5个字符但不能超过20个字符。 同一个账户下的接口地址不支持重复。 |
资源配置
在资源配置中,首先需确认付费信息,在此基础上进行资源信息的完善。
付费信息
- 按算力单元计费:预付费形式,服务按照部署资源(私有资源池)使用时长收费,相关计费逻辑可查看计费详情,如您遇到算力单元售罄可提交工单排队申请。
- 按Tokens计费:后付费形式,服务按照部署服务实际调用量收费,公共资源池和私有资源池均支持的类型,相关计费逻辑和支持范围可查看计费详情。
注意:全量模型支持按算力单元付费,但是只有经过平台SFT后的模型(查看范围)在部署时,支持按Tokens进行付费。
资源信息
- 当您选择按照“算力单元”进行付费时:
字段 | 内容 | 描述 |
---|---|---|
资源池 | 公共资源池、私有资源池 | 选择服务可托管的资源池,如服务托管在私有资源池,可设定在线服务部署的算力单元来保障QPS。 |
地域 | 华北-北京、华北保定 | 按需选择有配置资源的地域。 |
资源配置 | AI加速卡I型 | 选择发布服务所需要的资源,当前仅支持此加速卡类型。 |
单副本算力单元 | 默认为1 | 固定配置,单副本的算力单元资源。 |
单副本QPS | 设置单副本QPS | 设定值仅为限流阈值,具体数值请以实际数据压测结果为准。 |
副本数 | 设置副本数量 | 设置多副本可提高服务性能 |
QPS | 平台自动生成 | 服务运行中产生的并发,受服务和生效时间限制。 |
注意:AI加速卡Ⅰ型算力单元数值规则调整,原2个算力单元等于新规则的1个算力单元,仅数值发生变化,资源规格等同,受到影响的字段为单副本算力单元数,其最小值由2变为1,资源规格并未发生改变。
-
当前私有资源池按照算力单元按月预付费单价如下:
- 按月度的租赁方式:RMB¥15,000 元/月 x 1副本 x 1算力单元。
- 折后价为:RMB¥7,500 元/月 x 1副本 x 1算力单元。
ERNIE 3.5暂不支持私有资源池租赁。
私有资源池资源租赁限时3折优惠起,详细金额及示例可查看价格文档。
创建服务-计费单位选择算力单元时:
- 购买时长单位是月:支持自动续费
自动续费默认是关闭的,需要手动打开。打开后,需要选择续费周期,建议选择1个月。选择X个月的意思是每X个月续费1次,续费时长是X个月。 自动续费是在当前资源到期前的7、3、1天分别扣费,直到扣费成功为止。
- 当前私有资源池按照算力单元按分钟后付费单价为:单算力单元原价0.52元/分钟,折后价为0.26元/分钟。
- 当您选择“Tokens”进行付费时:
平台将按照部署服务的实际调用量进行付费,平台自动生成预估首Tokens时延(实际调用服务时延会随网络通信等因素影响,请以实际调用服务时延为准)和总预估QPS。
具体付费金额可查看价格文档
此计费方式仅限部署经过平台SFT后的模型(查看范围)。
购买信息
当您选择按照算力单元按分钟后付费的付费方式时,支持您自定义资源的是释放时间。
如果开关为关闭状态,需要您手动释放资源。如果开关状态为开启,则支持您选择资源释放的时间(精确到秒)。
更多信息
最后,您可以选择是否开启日志投递功能,开启功能后的服务日志可以通过百度日志服务(Baidu Log Service,简称BLS)进行统一纳管,前提需要您开通BLS服务,可以创建或者选择已经创建的日志集,关于日志集的内容可查看BLS操作参考
特别注意
- 申请发布后,服务发布失败、账单异常等情况,请在百度智能云控制台内提交工单反馈。
- 已购算力单元到期前的7/3/1天,系统会分别发送即将到期的短信至主账号或子账号,如您需继续使用可对此服务续费,可在购买信息处设置多个消息接收人。
列表查看
公有云服务支持对已经发布的服务按服务条目为粒度分行展示。如下图所示:
服务详情
服务详情中可查看本次服务的基本信息和历史版本内容。
- 版本基本信息中可查看服务的基本信息并续购私有资源池。续购资源池相关参数可查看发布模型的资源配置项。
- 版本列表来源为更新服务。
变配
【付费方式为算力单元】且【服务状态是运行中】的服务,提供【变配】操作,只有使用中的资源提供变配按钮,非使用中的资源不提供变配按钮。点击特定资源对应的变配按钮,进入变配页面。
- 当前私有资源池按照算力单元按分钟后付费单价为:单副本单算力单元原价0.52元/分钟,折后价为0.26元/分钟,无论升配或降配均执行此单价。
- 预付费算力单元实例只支持升配,请根据实际情况谨慎调整配置,本页面支持对预付费算力单元直接付费,单副本单算力单元原价14500元/月,折后价为7250元/月
更新服务
在线服务支持服务的版本更新,更新来源为模型的其他版本,历史版本将会在服务详情中进行展示。
允许您选择同类模型下的任意模型的任意版本。
服务上/下线
在线服务支持对已发布的服务指定版本或者已下线的服务进行上线,同时也可对已发布的服务进行下线操作。
1)对于暂停服务的模型服务版本,可以服务详情版本列表的“上线”按钮。无需其他操作,审核通过后即可恢复暂停服务前的版本服务。
2)运行中的多版本服务,点击“服务详情”,可以对指定版本进行单独上线,平滑版本更替,不会直接影响正在运行中的版本服务。
3)对于运行中的服务,已经确认暂时不需要,可以进行暂时下线工作,可以在服务列表的操作列直接操作,也可以到服务详情-版本列表中选择“下线”。
如遇上线失败等特殊情况,请提交工单反馈。
日志投递/解绑
如您在创建服务时,未开启日志投递功能,可以在列表页开启日志投递功能;如您在创建服务时,已经开启日志投递功能,需要进行变更或者关闭,也可在列表页进行日志解绑。相关操作可查看BLS操作参考。
删除服务
如果您明确不再需要某项服务,可以点击操作列的“删除”按钮,如果服务仍在发布中的,需要先“下线”此服务,才能进行删除操作。