快速部署QwQ-32B模型
更新时间:2025-03-06
QwQ-32B通义千问推理模型通过大规模强化学习,在数据、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1,大幅降低了部署成本。本文将指导您如何使用百舸在线服务部署QwQ-32B模型。
前置条件
准备资源
- 购买1台L20或A10机器并创建资源池(L20需要开通白名单,请联系百度售前工程师);
- 开通存储产品,PFS、CFS或BOS,PFS需与资源池绑定。
准备模型文件
方式一:从平台预置的BOD路径下载到CFS或PFS
- 平台已提供QwQ-32B模型权重文件存储在BOS对象存储中,您可以从对应地域的BOS路径中下载模型。
- 登录节点安装BOSCMD https://cloud.baidu.com/doc/BOS/s/qjwvyqegc 并完成BOSCMD配置置 https://cloud.baidu.com/doc/BOS/s/Ejwvyqe55
- 从附录中平台提供的BOS地址中拷贝权重文件到PFS存储中:
./bcecmd bos sync bos:/aihc-models-bj/Qwen/QwQ-32B /mnt/model/QwQ-32B
地域 | BOS路径 |
---|---|
北京 | bos:/aihc-models-bj/Qwen/QwQ-32B |
苏州 | bos:/aihc-models-su/Qwen/QwQ-32B |
广州 | bos:/aihc-models-gz/Qwen/QwQ-32B |
方式二:通过百舸平台从开源社区下载到BOS
- 登录百舸异构计算平台
- 在左侧导航中选择 数据下载
- 进入数据集/模型管理页面,点击 创建数据集/模型
- 创建内容选择模型,复制开源模型名称即可一键从HuggingFace下载模型权重文件存储到BOS对象存储中
部署服务
- 登录百舸异构计算平台,在左侧导航中选择 在线服务部署 部署自定义服务。
- 在左侧导航中选择 在线服务部署
- 进入自定义部署页面点击 部署服务
- 填写部署模型服务的相关参数:
a. 资源申请中的加速芯片卡数设置为4
b.服务镜像选择 CCR企业版镜像>百舸预置镜像 平台提供vLLM镜像,vllm-openai v0.7.3
c. 设置端口及流量接入
填写调用时的服务访问端口,如需公网访问请开启公网开关,默认仅支持VPC内调用
d.设置存储挂载
源路径填写存储模型权重文件的CFS、PFS或BOS路径,如无特殊需求目标路径可填写为 /mnt/model;
e.设置启动命令
PATH_TO_MODEL替换为容器目标路径
python3 -m vllm.entrypoints.openai.api_server --port {port} --model PATH_TO_MODEL --served-model-name QwQ-32B --tensor-parallel-size 4 --max-num-seqs 64 --max_model_len=10240
5.部署服务,等待服务状态为“运行中”即可调用。
调用模型服务
- 在服务详情中查看访问地址和服务端口
- 请求示例
请求访问前请核查是否开启云原生网关。云原生网关集成 Token 鉴权机制,显著增强了服务的安全性。所有未经授权的请求将被网关自动拦截,能有效保护推理服务免受未授权访问。若已开启,在使用时,请确保将完整的 Token 置于HTTP请求头的Authorization字段中。
#关闭AI原生网关
curl --location '192.168.49.41/auth/ap-be12ea97/8088/v1/chat/completions' \
--header 'Content-Type: application/json' \
--data '{
"model": "QwQ-32B",
"prompt": "鸡兔同笼,头共20个,足共62只,求鸡与兔各有多少只?"
}'
#开启AI原生网关
curl --location '192.168.49.41/auth/ap-be12ea97/8088/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6ImNzbSIsInR5cCI6IkpXVCJ9.eyJpYXQiO***' \
--data '{
"model": "QwQ-32B",
"prompt": "鸡兔同笼,头共20个,足共62只,求鸡与兔各有多少只?"
}'