在线服务部署
更新时间:2025-05-08
百舸平台提供更灵活的部署方式,您可以将通过Docker构建的镜像使用此功能部署为推理服务,将模型文件或代码挂载到服务实例中。本文将为您介绍如何使用控制台部署及管理服务。
准备工作
- 登录百舸异构计算平台,在AI计算资源池中创建全托管资源池或自运维资源池,准备算力资源;
- 准备部署在线服务所需的信息:
- 服务镜像地址,例如:
registry-vpc.cn-shanghai.aliyuncs.com/xxx/yyy:zzz
。 - 镜像的启动运行命令,例如:
/data/eas/ENV/bin/python /data/eas/app.py
。 - 镜像中进程监听的网络端口号,例如:
8000
。
部署服务
- 登录百舸异构计算平台,点击左侧导航栏中的 在线服务部署 服务进入列表页面。
- 单击 部署服务 进入创建页面。
- 在创建页面填写相关参数,具体参数如下:
基础信息
参数名称 | 参数说明 |
---|---|
服务名称 | 1.支持小写字母、数字以及 - 且开头必须是小写字母,结尾必须是小写字母或数字,长度1-50; 2.服务名称不可重复。 |
所属服务组 | 1. 同一服务组中的服务有统一的流量接入地址,如需PD分离部署需要将Prefill服务和Decode服务加入同一服务组; 2.服务部署成功后所属服务组不支持修改。 |
资源配置
参数名称 | 参数说明 |
---|---|
资源池类型 | 选择在线服务需要部署到的资源池。 自运维资源池:自运维资源池,需要先创建资源池购买用于AI推理的计算资源 全托管资源池:免运维资源池,您无需运维和管理资源池和算力资源,由平台保障资源池稳定性 |
资源规格 | 选择部署服务所需的加速芯片类型和卡数、CPU、内存;加速芯片类型选择 “不使用加速芯片”即部署CPU服务。 |
分布式推理 | 模型参数量较大无法单台机器推理时,可以选择分布式推理将单实例部署在多台机器。 单实例Pod数即每个副本中的Pod数量,默认为2,可按需修改。 |
Prefill-Decode分离 | 如需PD分离部署,为当前服务指定Prefill或Decode标签。 |
RDMA | 分布式推理或PD分离部署时,建议开启RDMA优化跨节点之间的数据传输。注意:算力资源需支持RDMA,否则可能会调度失败。 |
服务容错 | 开启服务容错,当节点或加速芯片故障时会封锁此节点,并自动驱逐坏卡或故障节点的实例在健康节点上重建。 |
优先级 | 支持设置在线服务的优先级,资源池开启抢占功能时会根据设置的任务抢占模式进行调度,高优先级可抢占低优先级任务的资源。 |
环境配置
参数名称 | 参数说明 |
---|---|
镜像地址 | 支持选择百舸预置镜像或从百度云CCR镜像仓库、自建镜像仓库拉取镜像;若需私有镜像仓库授权,请输入账号密码。 |
启动命令 | 镜像的启动运行命令,如python /mnt/run.py |
端口 | 支持自定义监听和调用端口,开启公网访问后会自动暴露此端口。如需根据业务逻辑设置自定义的监控指标,对应的监控端口用途请选择“Metrics”。 注意:8001、8002端口已被系统占用,为了避免服务因端口冲突而无法正常完成启动,请勿设置为8001、8002。 |
环境变量 | 1.将被注入到容器实例中的环境变量; 2.变量名仅支持大小写字母、数字、下划线,且不能以数字作为开头。 |
存储挂载 | 设置模型权重文件存储的源路径和容器挂载的目标路径。 |
健康检查 | 可通过健康检查自动检测并恢复异常状态的容器,确保只有健康的实例接收流量并避免向不健康的实例分配资源。 1.可以配置存活探针、就绪探针、启动探针策略 2.三种检查方法: HTTP请求检查:通过容器的IP地址、端口号及路径调用 HTTP Get方法,如果响应的状态码大于等于200且小于400,则容器健康。 TCP连接检查:在容器中执行指定命令,如果执行成功后退出码为0则健康检查成功。 自定义执行命令:在容器中执行指定命令,如果执行成功后退出码为0则健康检查成功。 |
流量接入
参数名称 | 参数说明 |
---|---|
云原生AI网关 | 使用云原生AI网关接入流量的服务支持鉴权机制,为了保障服务的安全性,建议开启云原生AI网关。 关闭时,将通过负载均衡接入请求。 云原生AI网关和负载均衡接入的调用方式不同,详见 API调用示例 |
公网访问 | 服务内部默认与公网不通,若需要公网访问到该服务,请开启公网访问配置访问方式。 |
高级配置
参数名称 | 参数说明 |
---|---|
日志持久化 | 平台默认存储100条日志,开启日志持久化功能会将日志持久化保存到日志服务(BLS)中,日志存储、读取、写入和索引会产生费用,详情参考价格详情。 |
优雅退出时间 | 实例退出前将等待一段时间来处理已经接收的请求,以减少实例变更带来的请求报错。无特殊需求建议使用默认值30s。 |
碎片迁移 | 开启后,资源池治理碎片资源时此服务将不再接收新请求,在优雅退出时间后自动删除实例并重建。关闭后,碎片整理时将不会迁移此服务。 |
滚动更新 | 支持为服务设置滚动更新策略,需要输入滚动更新过程中最大不可用和最大超量实例数比例。 1.最大不可用:滚动更新过程中不可用实例的数量占预期实例数的百分比,范围1%-100%。示例:预期实例数为10,最大不可用为20%,则更新过程中可用的实例数最少有8个。 2.最大超量:滚动更新过程中超出预期的实例数量占预期实例数的百分比,范围1%-100%。 示例:预期实例数为10,最大超量为10%,则更新过程中实例数最多可达11个。 |
共享内存 | 设置共享内存大小 |
升级服务
服务部署成功后,您可以通过 升级服务 修改镜像版本、存储挂载、健康检查、滚动更新策略等信息,填写本次变更内容的描述。 平台会记录详细的版本变更记录,您可在服务详情中查看版本变更记录。
手动扩缩容
服务部署成功后,如果您的服务流量有变化,您可以进行扩缩容操作以满足您的流量负载要求。
实例摘流
当某个实例出现故障或性能问题,为了避免服务中断,可以通过实例摘流来平滑过渡。开启实例摘流后,需要等待几分钟生效。
流量接入
服务部署成功后,您可通过流量接入修改服务的访问方式。