HuggingFace格式模型导入
更新时间:2026-01-05
本文档详细说明如何将HuggingFace格式的模型权重文件导入至千帆ModelBuilder平台。
前提条件
- 开通BOS服务
需提前开通百度智能云对象存储(BOS)服务 - 上传模型文件
将HuggingFace权重文件上传至BOS存储桶,
支持范围
下表列出了当前支持的模型类型及其对应的推理引擎版本,完整支持范围可在控制台查看。
| 模型类型 | 推理引擎 | 版本要求 |
|---|---|---|
| 文本生成 | Transformers | 4.43.2 |
| vLLm | 0.6.3/0.7.2/0.8.3/0.8.5 | |
| llama.cpp | b4800 | |
| SGLang | 0.4.4 | |
| 内置模型 | DeepSeek-R1-Distill-Qwen(14B/32B)、 Qwen3系列(0.6B/1.7B/4B/8B/14B/32B)、 Qwen2.5系列(7B/14B/32B/72B/Coder-32B)、 Seed-OSS系列(36B) | |
| 视觉理解 | vLLm | 0.8.3/0.8.5/0.9.2 |
| 内置模型 | Ovis2.5系列、InternLM/VL系列、Qwen-VL系列、LLaVA、GLM-4V等 | |
| 向量表示 | ||
| Transformers | 4.44.2 | |
| 内置模型 | jina-embeddings-v3、bge-large-zh-v1.5、m3e-base | |
| 重排序 | ||
| Transformer | 4.36.2/4.46.3 | |
| 内置模型 | bge-reranker-v2-m3、jina-reranker-v2 |
请确认导入模型支持以上推理框架,否则可能会导入失败。
- SGLang参考:https://docs.sglang.ai/supported_models/generative_models.html
- VLLM参考:https://docs.vllm.ai/en/latest/models/supported_models.html
操作流程
1. 创建模型
登陆百度千帆平台,选择模型服务,进入我的模型菜单
2. 填写基本信息
- 模型名称:自定义标识名称
- 模型类型:选择对应分类(文本生成/图像生成/向量表示等)
- 业务标签:可选,用于业务分类
3. 配置模型参数
- 模型版本:系统自动生成(V1开始递增)
- 版本描述:可选,建议记录关键信息
- 模型来源:选择BOS并填写对应Bucket和路径
- 模型格式:选择HuggingFace
- 推理引擎:根据"支持范围"章节选择对应版本
4. 模型特化配置
- 是否开启思考:打开开关后,会根据输出规范来解析思考内容。将解析到的思考部分放在接口的reasoning_content字段输出
- 输出规范:DeepSeek格式(思维链需包含在
<think></think>标签内)
部署时启动参数配置
导入的自定义模型,在部署时候允许选择推理引擎和配置部分启动参数。平台精调模型暂不支持选择。
模型点击部署,进入专属推理服务部署的界面。
可见以下部署参数

说明:
Plain Text
1* 参数数值为auto,代表使用平台默认的配置,不做任何修改
