模型服务
更新时间:2026-01-21
模型服务用于将大语言模型(LLM)、Embedding 模型或其他算法模型等,部署成一个可稳定对外提供推理能力的在线服务,最终可以通过直接调用 API 进行推理。
前提条件
- 具备模型服务管理权限;
- 当前操作环境网络通畅,可正常连接 DataBuilder 平台服务端。
名词解释
表1 模型服务名词解释
| 概念 | 概念定义 |
|---|---|
| 模型适配器 | 模型适配器是一层“标准化封装”,用于在模型与推理框架之间建立统一接口,使不同来源、不同格式、不同运行方式的模型能够在平台上以一致的方式被部署与调用,它将模型的输入输出、依赖环境、调用协议等信息抽象为标准化定义 |
| 模型部署 | 模型部署”指将模型从开发态转化为可在线推理调用的运行态服务的过程。部署过程通常包括选择推理框架(如 Triton、vLLM)、分配计算资源、暴露接口(API)等,使模型具备对外提供推理能力的能力。部署后可通过模型服务进行统一管理与调用。 |
| 模型文件 | 用于描述模型的权重参数文件 |
| 模型镜像 | 包含描述模型的权重参数文件、依赖库等信息的镜像,可用于部署 |
| 模型格式 | 可理解为文件格式,就像图片有png、jpg一样,模型也有格式的概念,比如TensorRT、torch、tensorflow、onnx 等 |
| 模型框架 | 模型推理工具,可以让模型推理速度变快,使用该工具往往需要特定的模型格式,如Tensorflow、Transfromer等 |
| 模型版本 | “模型版本”用于跟踪和管理同一个模型在不同阶段的更新,记录了模型文件、格式、指标等信息。 |
| 模型管理 | 包含版本控制、模型血缘、权限、操作记录等功能 |
模型服务管理
查看模型服务列表
- 登录百度智能云 DataBuilder 控制台,侧边导航选择模型服务进入模型服务列表页。
- 列表页支持按照服务名称进行搜索,列表支持按照服务状态进行筛选(服务状态:未部署/初始化中/运行中/停止中/已停止/失败/已删除),同时可按照创建时间或更新时间进行列表排序。
表2 模型服务列表说明
| 列表项名称 | 说明 |
|---|---|
| 服务名称 | 当前模型服务的自定义名称。 |
| 服务状态 | 当前模型服务的运行状态,状态类型有:未部署、初始化中、运行中、停止中、已停止、失败和已删除。 |
| 基础模型 | 该服务对应的底层模型。 |
| 创建人 | 发起该模型服务创建的用户。 |
| 创建时间 | 模型服务的首次创建时间。 |
| 更新时间 | 服务配置的最后修改时间 |
| 操作 | 单击操作列不同按钮,对模型服务进行不同操作。编辑:调整该模型服务的配置。启动:部署并启动该模型服务,使其进入 “运行中” 状态以提供调用。停止:暂停已启动的模型服务。复制:克隆当前服务配置删除:删除当前模型服务,注意:服务删除后无法恢复,请您谨慎操作。 |
编辑模型服务
- 在操作列单击编辑按钮,可对模型服务配置进行调整,编辑字段项说明参照表3。
- 编辑完字段项单击下方立即部署按钮,页面跳转至模型服务列表页,服务状态显示为 “初始化”;也可单击保存按钮,跳转至模型服务列表页,该服务状态显示为“未部署”,可通过“编辑”按钮继续编辑。
表3 编辑模型服务字段说明
| 字段 | 说明 |
|---|---|
| 服务名称 | 编辑服务名称,文件名称长度必须在1~256字符之间,不能出现/或者\,不能仅为.。 |
| 描述 | 对模型服务的补充描述,不超过256字符。 |
| 所属项目 | 关联的对应项目名称。 |
| 模型类型 | 模型的形态,如外部模型,模型文件和自定义镜像模型。 |
| 模型平台 | 如果选择外部模型的情况下,支持千帆模型。 |
| URL | 千帆模型推理服务的调用地址。 |
| API Key | 输入API Key,用于访问千帆外部服务的 API Key。 |
| 模型名称 | 用户要调用的千帆模型名称,不可编辑。 |
| 自定义参数 | 可选的自定义扩展参数,以 key-value 格式输入。 |
| 节点类型 | CPU。 |
| 单副本CPU数量 | 单副本的所需的 CPU 数量。 |
| 副本数 | 输入副本数,为保证高可用设置要部署的模型副本数,最小值1,最大值为10。 |
