在线服务部署常见问题
更新时间:2026-06-18
本文为您介绍在线服务部署过程中的常见问题。
目录
名词说明:本文涉及以下缩写。
- AIAK:百度 AI 加速套件(AI Accelerator Kit),用于推理 / 训练加速。
- PFS:并行文件存储(Parallel File Storage),可挂载的外部高性能存储。
- POD:Kubernetes 中的最小调度单元,一个推理副本通常对应一个 POD。
- OOM:内存溢出(Out Of Memory)。
一、推理服务部署与启动
Q:首次启动多副本推理实例时,只有一个副本能成功,其他副本返回失败是什么原因?
当您使用 AIAK 加速引擎进行推理服务部署时,首次需要进行模型权重转换,该过程需要一段时间(具体时长取决于模型参数大小,参数越大转换越久)。在此期间,多副本中的其他 POD 会不断进行失败重试,直到模型权重转换完成后恢复正常。
⚠️ 这是首次部署时的预期行为,无需手动干预,待权重转换完成后其余副本会自动启动成功。
Q:模型权重转换中途失败,再次启动时报错,应该如何解决?
当推理服务部署过程中,因 OOM、POD 被驱逐等因素导致模型权重转换失败后,需要手动清理 PFS 中的 /mnt/model/triton 文件夹,然后重新进行推理服务部署。
二、模型运行与资源配置
Q:模型进行较长上下文输入输出时,最后的输出出现大量乱码是什么原因?
Llama 1 系列模型单次最大 token 支持 2048(包括输入和输出)。超出 2048 限制后,模型会出现乱码等异常情况,请注意控制输入和输出的 token 长度。
Q:单副本 POD 为什么不支持使用多张 A800 GPU 卡运行推理服务?
建议按照百舸推理服务的推荐配置相关资源,使用 1 张 A800 GPU 卡进行 Llama 7B 或 13B 模型的推理服务部署。
⚠️ 若为 Llama 7B / 13B 这类参数量相对较小的模型配置多卡运行,由于引入多卡间的通信损失,反而可能带来性能下降。
Q:部署 Llama 7B 和 13B 模型推理服务的 CPU 和内存默认推荐规格是什么?
- Llama 7B:默认推荐规格为 12C CPU 和 40GB 内存;
- Llama 13B:默认推荐规格为 24C CPU 和 80GB 内存。
评价此篇文章
