快速部署QwQ-32B模型
所有文档
menu

百舸异构计算平台 AIHC

快速部署QwQ-32B模型

QwQ-32B通义千问推理模型通过大规模强化学习,在数据、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1,大幅降低了部署成本。本文将指导您如何使用百舸在线服务部署QwQ-32B模型。

前置条件

准备资源

  1. 购买1台L20或A10机器并创建资源池(L20需要开通白名单,请联系百度售前工程师);
  2. 开通存储产品,PFS、CFS或BOS,PFS需与资源池绑定。

准备模型文件

方式一:从平台预置的BOD路径下载到CFS或PFS

  1. 平台已提供QwQ-32B模型权重文件存储在BOS对象存储中,您可以从对应地域的BOS路径中下载模型。
  2. 登录节点安装BOSCMD https://cloud.baidu.com/doc/BOS/s/qjwvyqegc 并完成BOSCMD配置置 https://cloud.baidu.com/doc/BOS/s/Ejwvyqe55
  3. 从附录中平台提供的BOS地址中拷贝权重文件到PFS存储中:
./bcecmd bos sync bos:/aihc-models-bj/Qwen/QwQ-32B /mnt/model/QwQ-32B
地域 BOS路径
北京 bos:/aihc-models-bj/Qwen/QwQ-32B
苏州 bos:/aihc-models-su/Qwen/QwQ-32B
广州 bos:/aihc-models-gz/Qwen/QwQ-32B

方式二:通过百舸平台从开源社区下载到BOS

  1. 登录百舸异构计算平台
  2. 在左侧导航中选择 数据下载
  3. 进入数据集/模型管理页面,点击 创建数据集/模型
  4. 创建内容选择模型,复制开源模型名称即可一键从HuggingFace下载模型权重文件存储到BOS对象存储中

image.png

部署服务

  1. 登录百舸异构计算平台,在左侧导航中选择 在线服务部署 部署自定义服务。
  2. 在左侧导航中选择 在线服务部署
  3. 进入自定义部署页面点击 部署服务
  4. 填写部署模型服务的相关参数:

a. 资源申请中的加速芯片卡数设置为4

b.服务镜像选择 CCR企业版镜像>百舸预置镜像 平台提供vLLM镜像,vllm-openai v0.7.3

image.png

c. 设置端口及流量接入

填写调用时的服务访问端口,如需公网访问请开启公网开关,默认仅支持VPC内调用

d.设置存储挂载

源路径填写存储模型权重文件的CFS、PFS或BOS路径,如无特殊需求目标路径可填写为 /mnt/model;

e.设置启动命令

PATH_TO_MODEL替换为容器目标路径; {port}替换为服务端口

python3 -m vllm.entrypoints.openai.api_server --port {port} --model PATH_TO_MODEL --served-model-name QwQ-32B --tensor-parallel-size 4 --max-num-seqs 64 --max_model_len=10240

5.部署服务,等待服务状态为“运行中”即可调用。

调用模型服务

  1. 在服务详情中查看访问地址和服务端口

image.png

  1. 请求示例

请求访问前请核查是否开启云原生网关。云原生网关集成 Token 鉴权机制,显著增强了服务的安全性。所有未经授权的请求将被网关自动拦截,能有效保护推理服务免受未授权访问。若已开启,在使用时,请确保将完整的 Token 置于HTTP请求头的Authorization字段中。

#关闭AI原生网关
curl --location '192.168.49.41:8080/v1/chat/completions' \
--header 'Content-Type: application/json' \
--data '{
   "model": "QwQ-32B",
    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}, {"role": "assistant", "content": "目前来看,人类登上火星是完全可能的..."}],
    "max_tokens": 1000,
    "temperature": 0
}'
    
#开启AI原生网关      
curl --location '192.168.49.41/auth/ap-be12ea97/8080/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6ImNzbSIsInR5cCI6IkpXVCJ9.eyJpYXQiO***' \
--data '{
    "model": "QwQ-32B",
    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}, {"role": "assistant", "content": "目前来看,人类登上火星是完全可能的..."}],
    "max_tokens": 1000,
    "temperature": 0
}'
上一篇
通过百舸平台PD分离部署DeepSeek R1
下一篇
分布式多机部署DeepSeek R1模型