模型部署
更新时间:2023-08-09
首次启动多副本推理实例时,只有一个副本能成功,其他副本会返回失败的原因是?
当您使用AIAK加速引擎进行推理服务部署时,因首次进行模型权重转换需要一段时间(具体时间取决于您的模型参数大小,模型参数越大,需要的转换时间越长),多副本的其他pod会不断进行失败重试,直到模型权重转换完成后。
在模型权重转换中途失败,再次启动时报错,应该如何解决?
当您进行推理服务部署时,因其他因素(如OOM、POD被驱逐等)导致模型转换失败后,您需要手动清理PFS中/mnt/model/triton文件夹,并尝试重新进行推理服务部署。
在模型进行较长的上下文输入输出时,模型最后的输出出现大量乱码的原因是?
Llama 1系列模型单次最大token支持2048(包括输入和输出),超出2048限制后,模型会显示乱码等情况,请您注意控制输入和输出token长度。
单副本POD为什么不支持使用多张A800 GPU卡运行推理服务?
建议您按照百舸推理服务推荐配置相关资源,使用1张A800 GPU卡进行Llama 7B或13B模型的推理服务部署,如配置多卡跑Llama 7B或13B这类参数量相对较小的模型,由于引入多卡间的通信损失,反而可能会带来性能下降。
部署Llama 7B和13B模型推理服务的CPU和内存默认推荐规格是什么?
Llama 7B默认推荐规格是12C CPU和40GB内存; Llama 13B默认推荐规格是24C CPU和80GB内存。