使用AIAK推理加速镜像单机部署DeepSeek R1

更新时间：2025-04-24

DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。本文将指导您如何使用AIAK推理加速镜像在百舸平台快速部署DeepSeek-R1模型，提升模型推理性能。

前置条件

创建自运维资源池，可参考附录创建相应机型的资源池。注意：购买H20机器需要先联系百度售前工程师开通白名单。
开通PFS与资源池关联。

准备模型文件

从平台预置的BOD路径下载到CFS或PFS,平台已提供DeepSeek-R1模型权重文件存储在BOS对象存储中，您可以从平台提供的BOS路径中下载模型。

登录节点安装BOSCMD https://cloud.baidu.com/doc/BOS/s/qjwvyqegc 并完成BOSCMD配置置 https://cloud.baidu.com/doc/BOS/s/Ejwvyqe55
从平台提供的BOS地址中拷贝权重文件到PFS存储中：

下载DeepSeek-R1模型文件
./bcecmd bos sync bos:/aihc-models-bj/deepseek-ai/DeepSeek-R1 /mnt/pfs/DeepSeek-R1
下载MTP使能依赖的小模型文件
./bcecmd bos sync bos:/aihc-models-bj/deepseek-ai/DeepSeek-R1-NextN /mnt/pfs/DeepSeek-R1-NextN

部署模型

登录百舸异构计算平台；
在左侧导航中选择 在线服务部署 ；
进入自定义部署页面点击 部署服务；
服务镜像选择 CCR企业版镜像>百舸预置镜像 中的 aiak-inference-sglang镜像；

输入以下启动命令：

export USE_CUDA_ROPE=0
export USE_FUSED_INPUT_TO_FP8=1
export ENABLE_SELECT_EXPERTS=1
export SGL_ENABLE_JIT_DEEPGEMM=1

python3 -m sglang.launch_server \
    --model-path {PATH_TO_MODEL} \ #请输入DeepSeek R1模型文件在容器中的目标路径
    --tp 8 \
    --trust-remote-code \
    --disable-radix-cache \
    --port {PORT} \ #请输入服务访问端口
    --host 0.0.0.0 \
    --decode-log-interval 2 \
    --max-running-requests 32 \
    --mem-fraction-static 0.9 \
    --enable-flashinfer-mla \
    --speculative-algorithm NEXTN \
    --speculative-draft {PATH_TO_MODEL_MTP} \ #请输入MTP使能的小模型文件在容器中的目标路径
    --speculative-num-steps 2 \
    --speculative-eagle-topk 1 \
    --speculative-num-draft-tokens 2

6.挂载存储模型权重文件和MTP使能小模型文件的PFS源路径和容器目标路径；

7.填写服务访问端口；

8.部署服务，等待服务状态为“运行中”即可调用。

调用模型服务

在服务列表中查看调用地址

请求示例

curl --location '<访问地址>/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: <TOKEN>' \
--data '{
    "model": "DeepSeek-R1",
    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}, {"role": "assistant", "content": "目前来看,人类登上火星是完全可能的..."}],
    "max_tokens": 1024,
    "temperature": 0
}'

通过百舸平台微调满血版 DeepSeek-R1、DeepSeek-V3 模型

在百舸平台部署Llama-4推理服务

百度智能云

百舸异构计算平台 AIHC