HuggingFace下载模型部署到千帆并调用推理服务的实践

更新时间：2024-09-19

1. HuggingFace模型下载

需要您在官网注册，登录。

搜索对应模型：Qwen1.5-1.8B，如下所示

在"Files and versions"中逐个文件下载到某个文件夹中。（或者使用git工具对整个仓库内容进行下载）

2. 模型导入BOS

在百度智能云平台，"对象存储 BOS"-->”全局概览“-->”创建存储桶“，进行创建。

创建后，将之前在HuggingFace下载的文件上传入该存储桶中。

3. 模型创建

在本平台进行模型部署："模型调优"-->”我的模型“-->”创建模型“.

其中，一些核心参数信息如下表：

项目	详情
模型来源	对象存储BOS
Bucket	qwentest（示例，实际为自己创建的Bucket）
文件夹	Qwen1.5-1.8b/（示例，实际为在Bucket中存储了HuggingFace模型的文件夹）
模型格式	HuggingFace > Transformers
Transformers版本	4.40.2

选取存储有对应模型文件的存储桶，一些设置可以参考如下，之后成功创建模型。

4. 创建服务

在本平台进行模型部署："模型服务"-->”我的服务“-->”创建服务“。

选择对应服务进行部署。

5. 调用推理

5.1 体验广场进行体验

如图所示，可以直接在体验广场处进行体验。

由此，可以在体验广场上调用Qwen1.5-1.8b模型进行推理，同时可以与其他模型进行比较

5.2 Postman上进行服务调用

为了Postman上进行服务调用，我们需要先创建应用，并在应用中接入我们之前所部署的Qwen1.5-1.8b模型的服务。

之后在Postman中获取Access Token：

打开Postman。
创建一个新的POST请求。
在URL字段中输入获取Access Token的URL，即：”https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=[应用的API Key]&client_secret=[应用的Secret Key]“（请确保将client_id和client_secret替换为你自己的有效凭证）。

在“Headers”选项卡下，设置Content-Type为application/json。
由于获取Access Token的请求体为空，因此“Body”选项卡可以保持为空。
发送请求。
在响应中，你将获得一个包含access_token的JSON对象。复制该access_token值，你将在后续的请求中使用它。

进而，可以调用模型服务：

在Postman中创建一个新的POST请求。
在URL字段中输入调用AI服务的URL，格式如下：https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/bcgirqol_qwen?access_token=YOUR_ACCESS_TOKEN（将YOUR_ACCESS_TOKEN替换为你在第一步中获得的access_token值）。
在“Headers”选项卡下，设置Content-Type为application/json。
在“Body”选项卡下，选择“raw”并设置为JSON格式。
将以下JSON粘贴到“Body”字段中（可以你想要发送给AI服务的消息，支持单论对话、多轮对话、流式请求等）：

单轮：

{
    "messages": [
        {
            "role": "user",
            "content": "介绍一下北京"
        }
    ]
}

多轮：

{
    "messages": [
        {
            "role": "user",
            "content": "介绍一下北京"
        },
        {
            "role": "assistant",
            "content": "北京是中国的首都，位于中国北部，是中国最大的城市之一。它有着悠久的历史和文化遗产，包括紫禁城、天坛、长城等著名景点。北京也是中国的文化、教育和商业中心，拥有许多高等学府和国际企业。此外，北京还是中国的交通枢纽，拥有现代化的机场、火车站和高速公路系统。北京的美食文化也非常丰富，包括烤鸭、炸酱面、豆汁等传统美食。总的来说，北京是一个充满活力和魅力的城市，值得一游。"
        },
        {
            "role": "user",
            "content": "介绍一下紫禁城"
        }
    ]
}

流式：

{
    "messages": [
        {
            "role": "user",
            "content": "给我推荐一些自驾游路线"
        }
    ],
    "stream": true
}

发送请求。
你将在响应中看到AI服务的回复。

SQLCoder自定义模型导入·详细操作

模型推理

百度智能云

千帆大模型服务与开发平台ModelBuilder