快速部署QwQ-32B模型

更新时间：2025-04-01

QwQ-32B通义千问推理模型通过大规模强化学习，在数据、代码及通用能力上实现质的飞跃，整体性能比肩DeepSeek-R1，大幅降低了部署成本。本文将指导您如何使用百舸在线服务部署QwQ-32B模型。

前置条件

准备资源

购买1台L20或A10机器并创建资源池（L20需要开通白名单，请联系百度售前工程师）；
开通存储产品，PFS、CFS或BOS，PFS需与资源池绑定。

准备模型文件

方式一：从平台预置的BOD路径下载到CFS或PFS

平台已提供QwQ-32B模型权重文件存储在BOS对象存储中，您可以从对应地域的BOS路径中下载模型。
登录节点安装BOSCMD https://cloud.baidu.com/doc/BOS/s/qjwvyqegc 并完成BOSCMD配置置 https://cloud.baidu.com/doc/BOS/s/Ejwvyqe55
从附录中平台提供的BOS地址中拷贝权重文件到PFS存储中：

./bcecmd bos sync bos:/aihc-models-bj/Qwen/QwQ-32B /mnt/model/QwQ-32B

地域	BOS路径
北京	bos:/aihc-models-bj/Qwen/QwQ-32B
苏州	bos:/aihc-models-su/Qwen/QwQ-32B
广州	bos:/aihc-models-gz/Qwen/QwQ-32B

方式二：通过百舸平台从开源社区下载到BOS

登录百舸异构计算平台
在左侧导航中选择 数据下载
进入数据集/模型管理页面，点击 创建数据集/模型
创建内容选择模型，复制开源模型名称即可一键从HuggingFace下载模型权重文件存储到BOS对象存储中

部署服务

登录百舸异构计算平台，在左侧导航中选择 在线服务部署 部署自定义服务。
在左侧导航中选择 在线服务部署
进入自定义部署页面点击 部署服务
填写部署模型服务的相关参数：

a. 资源申请中的加速芯片卡数设置为4

b.服务镜像选择 CCR企业版镜像>百舸预置镜像 平台提供vLLM镜像，vllm-openai v0.7.3

c. 设置端口及流量接入

填写调用时的服务访问端口，如需公网访问请开启公网开关，默认仅支持VPC内调用

d.设置存储挂载

源路径填写存储模型权重文件的CFS、PFS或BOS路径，如无特殊需求目标路径可填写为 /mnt/model；

e.设置启动命令

PATH_TO_MODEL替换为容器目标路径; {port}替换为服务端口

python3 -m vllm.entrypoints.openai.api_server --port {port} --model PATH_TO_MODEL --served-model-name QwQ-32B --tensor-parallel-size 4 --max-num-seqs 64 --max_model_len=10240

5.部署服务，等待服务状态为“运行中”即可调用。

调用模型服务

在服务详情中查看访问地址和服务端口

请求示例

请求访问前请核查是否开启云原生网关。云原生网关集成 Token 鉴权机制，显著增强了服务的安全性。所有未经授权的请求将被网关自动拦截，能有效保护推理服务免受未授权访问。若已开启，在使用时，请确保将完整的 Token 置于HTTP请求头的Authorization字段中。

#关闭AI原生网关
curl --location '192.168.49.41:8080/v1/chat/completions' \
--header 'Content-Type: application/json' \
--data '{
   "model": "QwQ-32B",
    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}, {"role": "assistant", "content": "目前来看,人类登上火星是完全可能的..."}],
    "max_tokens": 1000,
    "temperature": 0
}'
    
#开启AI原生网关      
curl --location '192.168.49.41/auth/ap-be12ea97/8080/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6ImNzbSIsInR5cCI6IkpXVCJ9.eyJpYXQiO***' \
--data '{
    "model": "QwQ-32B",
    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}, {"role": "assistant", "content": "目前来看,人类登上火星是完全可能的..."}],
    "max_tokens": 1000,
    "temperature": 0
}'

通过百舸平台PD分离部署DeepSeek R1

分布式多机部署DeepSeek R1模型

百舸异构计算平台 AIHC