HuggingFace下载模型部署到千帆并调用推理服务的实践
更新时间:2024-09-19
1. HuggingFace模型下载
需要您在官网注册,登录。
搜索对应模型:Qwen1.5-1.8B,如下所示
在"Files and versions"中逐个文件下载到某个文件夹中。(或者使用git工具对整个仓库内容进行下载)
2. 模型导入BOS
在百度智能云平台,"对象存储 BOS"-->”全局概览“-->”创建存储桶“,进行创建。
创建后,将之前在HuggingFace下载的文件上传入该存储桶中。
3. 模型创建
在本平台进行模型部署:"模型调优"-->”我的模型“-->”创建模型“.
其中,一些核心参数信息如下表:
项目 | 详情 |
---|---|
模型来源 | 对象存储BOS |
Bucket | qwentest(示例,实际为自己创建的Bucket) |
文件夹 | Qwen1.5-1.8b/(示例,实际为在Bucket中存储了HuggingFace模型的文件夹) |
模型格式 | HuggingFace > Transformers |
Transformers版本 | 4.40.2 |
选取存储有对应模型文件的存储桶,一些设置可以参考如下,之后成功创建模型。
4. 创建服务
在本平台进行模型部署:"模型服务"-->”我的服务“-->”创建服务“。
选择对应服务进行部署。
5. 调用推理
5.1 体验广场进行体验
如图所示,可以直接在体验广场处进行体验。
由此,可以在体验广场上调用Qwen1.5-1.8b模型进行推理,同时可以与其他模型进行比较
5.2 Postman上进行服务调用
为了Postman上进行服务调用,我们需要先创建应用,并在应用中接入我们之前所部署的Qwen1.5-1.8b模型的服务。
之后在Postman中获取Access Token:
- 打开Postman。
- 创建一个新的POST请求。
- 在URL字段中输入获取Access Token的URL,即:”
https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=[应用的API Key]&client_secret=[应用的Secret Key]
“(请确保将client_id
和client_secret
替换为你自己的有效凭证)。
- 在“Headers”选项卡下,设置
Content-Type
为application/json
。 - 由于获取Access Token的请求体为空,因此“Body”选项卡可以保持为空。
- 发送请求。
- 在响应中,你将获得一个包含
access_token
的JSON对象。复制该access_token
值,你将在后续的请求中使用它。
进而,可以调用模型服务:
- 在Postman中创建一个新的POST请求。
- 在URL字段中输入调用AI服务的URL,格式如下:
https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/bcgirqol_qwen?access_token=YOUR_ACCESS_TOKEN
(将YOUR_ACCESS_TOKEN
替换为你在第一步中获得的access_token
值)。 - 在“Headers”选项卡下,设置
Content-Type
为application/json
。 - 在“Body”选项卡下,选择“raw”并设置为JSON格式。
- 将以下JSON粘贴到“Body”字段中(可以你想要发送给AI服务的消息,支持单论对话、多轮对话、流式请求等):
单轮:
{
"messages": [
{
"role": "user",
"content": "介绍一下北京"
}
]
}
多轮:
{
"messages": [
{
"role": "user",
"content": "介绍一下北京"
},
{
"role": "assistant",
"content": "北京是中国的首都,位于中国北部,是中国最大的城市之一。它有着悠久的历史和文化遗产,包括紫禁城、天坛、长城等著名景点。北京也是中国的文化、教育和商业中心,拥有许多高等学府和国际企业。此外,北京还是中国的交通枢纽,拥有现代化的机场、火车站和高速公路系统。北京的美食文化也非常丰富,包括烤鸭、炸酱面、豆汁等传统美食。总的来说,北京是一个充满活力和魅力的城市,值得一游。"
},
{
"role": "user",
"content": "介绍一下紫禁城"
}
]
}
流式:
{
"messages": [
{
"role": "user",
"content": "给我推荐一些自驾游路线"
}
],
"stream": true
}
- 发送请求。
- 你将在响应中看到AI服务的回复。