HuggingFace格式模型导入
更新时间:2025-04-27
本文档详细说明如何将HuggingFace格式的模型权重文件导入至千帆ModelBuilder平台。
前提条件
- 开通BOS服务
需提前开通百度智能云对象存储(BOS)服务 - 上传模型文件
将HuggingFace权重文件上传至BOS存储桶,可参考自动下载HuggingFace模型至BOS实现自动化操作
支持范围
下表列出了当前支持的模型类型及其对应的推理引擎版本:
模型类型 | 推理引擎 | 版本要求 |
---|---|---|
文本生成 | Transformers | 4.43.2 |
vLLm | 0.6.3/0.7.2/0.8.3 | |
llama.cpp | b4800 | |
SGLang | 0.4.4 | |
内置模型 | Qwen2.5系列(7B/14B/32B/72B-Instruct) | |
深度推理 | vLLm | 0.6.3/0.7.2/0.8.3 |
llama.cpp | b4800 | |
SGLang | 0.4.4 | |
内置模型 | DeepSeek-R1-Distill-Qwen(14B/32B) | |
图像理解 | vLLm | 0.8.3 |
内置模型 | InternLM/VL系列、Qwen-VL系列、LLaVA、GLM-4V等 | |
向量表示 | SentenceTransformer | 2.7.0 |
Transformers | 4.44.2 | |
内置模型 | jina-embeddings-v3、bge-large-zh-v1.5 | |
重排序 | BCEmbedding | 0.1.5 |
Transformer | 4.36.2/4.46.3 | |
内置模型 | bge-reranker-v2-m3、jina-reranker-v2 | |
图像生成 | Safetensors | 仅支持Stable-Diffusion-XL的LoRA模型 |
请确认导入模型支持以上推理框架,否则可能会导入失败。
- SGLang参考:https://docs.sglang.ai/supported_models/generative_models.html
- VLLM参考:https://docs.vllm.ai/en/latest/models/supported_models.html
操作流程
1. 创建模型
- 登录千帆控制台
- 导航至【模型管理】→【我的模型】
- 点击"创建模型"按钮
2. 填写基本信息
- 模型名称:自定义标识名称
- 模型类型:选择对应分类(文本生成/图像生成/向量表示等)
- 业务标签:可选,用于业务分类
3. 配置模型参数
- 模型版本:系统自动生成(V1开始递增)
- 版本描述:可选,建议记录关键信息
- 模型来源:选择BOS并填写对应Bucket和路径
- 模型格式:选择HuggingFace
- 推理引擎:根据"支持范围"章节选择对应版本
4. 模型特化配置
文本对话模型
-
采样策略
- 贪心采样(默认):选择最高概率token
- 多样性采样:增加输出随机性
- Prompt规范:自动使用tokenizer_config.json配置
- 输入输出模式:推荐使用对话模式(续写模式即将下线)
深度推理模型
- 采样策略:同文本对话模型
- 输出规范:仅支持DeepSeek格式(思维链需包含在
<think></think>
标签内)
推理引擎高级配置
Transformers配置
{
"load_model_class": "AutoModelForCausalLM",
"load_tokenizer_class": "AutoTokenizer",
"enable_auto_batch": true,
"custom_end_str": "",
"token_decode_return_blank": true,
"tokenizer_special_tokens": {}
}
参数说明:
参数 | 类型 | 说明 |
---|---|---|
load_model_class |
string | 模型加载类(默认:AutoModelForCausalLM) |
load_tokenizer_class |
string | Tokenizer加载类(默认:AutoTokenizer) |
enable_auto_batch |
boolean | 是否启用批量推理(影响吞吐量) |
custom_end_str |
string | 自定义生成终止字符串 |
token_decode_return_blank |
boolean | 控制英文token解码空格 |
tokenizer_special_tokens |
object | 需添加的特殊token(如pad_token) |
llama.cpp配置
{
"llamacpp_args": "-c 32768 -np 1 -fa"
}
参数说明:
-c 32768
:设置上下文窗口长度(影响内存消耗)-np 1
:指定GPU加速层数(影响显存占用)-fa
:启用Flash Attention优化
vLLm配置
{
"load_tokenizer_class": "AutoTokenizer",
"custom_end_str": "",
"vllm_engine_args": {
"max_model_len": 32768,
"gpu_memory_utilization": 0.97
},
"tokenizer_special_tokens": {}
}
参数说明:
max_model_len
:模型最大长度限制gpu_memory_utilization
:GPU显存利用率(推荐0.97防溢出)- 更多参数参考vLLm官方文档
注意:平台会固定部分vLLm参数("model", "served_model_name", "tokenizer", "download_dir", "trust_remote_code", "tensor_parallel_size"),不可自定义配置