模型部署

更新时间：2023-08-09

首次启动多副本推理实例时，只有一个副本能成功，其他副本会返回失败的原因是？

当您使用AIAK加速引擎进行推理服务部署时，因首次进行模型权重转换需要一段时间（具体时间取决于您的模型参数大小，模型参数越大，需要的转换时间越长），多副本的其他pod会不断进行失败重试，直到模型权重转换完成后。  

当您进行推理服务部署时，因其他因素（如OOM、POD被驱逐等）导致模型转换失败后，您需要手动清理PFS中/mnt/model/triton文件夹，并尝试重新进行推理服务部署。

Llama 1系列模型单次最大token支持2048（包括输入和输出），超出2048限制后，模型会显示乱码等情况，请您注意控制输入和输出token长度。

建议您按照百舸推理服务推荐配置相关资源，使用1张A800 GPU卡进行Llama 7B或13B模型的推理服务部署，如配置多卡跑Llama 7B或13B这类参数量相对较小的模型，由于引入多卡间的通信损失，反而可能会带来性能下降。

Llama 7B默认推荐规格是12C CPU和40GB内存； Llama 13B默认推荐规格是24C CPU和80GB内存。