使用AIAK推理加速镜像单机部署DeepSeek R1
更新时间:2025-04-24
DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。本文将指导您如何使用AIAK推理加速镜像在百舸平台快速部署DeepSeek-R1模型,提升模型推理性能。
前置条件
- 创建自运维资源池,可参考附录创建相应机型的资源池。 注意:购买H20机器需要先联系百度售前工程师开通白名单。
- 开通PFS与资源池关联。
准备模型文件
从平台预置的BOD路径下载到CFS或PFS,平台已提供DeepSeek-R1模型权重文件存储在BOS对象存储中,您可以从平台提供的BOS路径中下载模型。
- 登录节点安装BOSCMD https://cloud.baidu.com/doc/BOS/s/qjwvyqegc 并完成BOSCMD配置置 https://cloud.baidu.com/doc/BOS/s/Ejwvyqe55
- 从平台提供的BOS地址中拷贝权重文件到PFS存储中:
下载DeepSeek-R1模型文件
./bcecmd bos sync bos:/aihc-models-bj/deepseek-ai/DeepSeek-R1 /mnt/pfs/DeepSeek-R1
下载MTP使能依赖的小模型文件
./bcecmd bos sync bos:/aihc-models-bj/deepseek-ai/DeepSeek-R1-NextN /mnt/pfs/DeepSeek-R1-NextN
部署模型
- 登录百舸异构计算平台;
- 在左侧导航中选择 在线服务部署 ;
- 进入自定义部署页面点击 部署服务;
- 服务镜像选择 CCR企业版镜像>百舸预置镜像 中的 aiak-inference-sglang镜像;
- 输入以下启动命令:
export USE_CUDA_ROPE=0
export USE_FUSED_INPUT_TO_FP8=1
export ENABLE_SELECT_EXPERTS=1
export SGL_ENABLE_JIT_DEEPGEMM=1
python3 -m sglang.launch_server \
--model-path {PATH_TO_MODEL} \ #请输入DeepSeek R1模型文件在容器中的目标路径
--tp 8 \
--trust-remote-code \
--disable-radix-cache \
--port {PORT} \ #请输入服务访问端口
--host 0.0.0.0 \
--decode-log-interval 2 \
--max-running-requests 32 \
--mem-fraction-static 0.9 \
--enable-flashinfer-mla \
--speculative-algorithm NEXTN \
--speculative-draft {PATH_TO_MODEL_MTP} \ #请输入MTP使能的小模型文件在容器中的目标路径
--speculative-num-steps 2 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 2
6.挂载存储模型权重文件和MTP使能小模型文件的PFS源路径和容器目标路径;
7.填写服务访问端口;
8.部署服务,等待服务状态为“运行中”即可调用。
调用模型服务
- 在服务列表中查看调用地址
- 请求示例
curl --location '<访问地址>/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: <TOKEN>' \
--data '{
"model": "DeepSeek-R1",
"messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}, {"role": "assistant", "content": "目前来看,人类登上火星是完全可能的..."}],
"max_tokens": 1024,
"temperature": 0
}'