aiak-inference-llm

更新时间：2025-12-25

AIAK-LLM 是百舸异构计算平台的核心组件之一，专为大模型推理加速打造的一站式高性能推理引擎。它深度集成百度自研软硬件技术栈，旨在解决大模型在高并发、低延迟、高吞吐场景下的部署效率与成本难题。

是百度自研深度定制版，支持NVIDIA、昆仑芯等多种算力。支持 Hugging Face 生态模型格式，可零代码或少量配置完成模型迁移与加速。结合 KV Cache 复用、动态批处理、算子融合等技术，在 Llama、Qwen、DeepSeek 等主流模型上实现吞吐提升 3~10 倍，P99 延迟降低 50%+。提供 OpenAI 兼容 API、Prometheus 监控指标简化多模态模型部署。