aiak-inference-llm
更新时间:2025-12-25
AIAK-LLM 是百舸异构计算平台的核心组件之一,专为大模型推理加速打造的一站式高性能推理引擎。它深度集成百度自研软硬件技术栈,旨在解决大模型在高并发、低延迟、高吞吐场景下的部署效率与成本难题。
是百度自研深度定制版,支持NVIDIA、昆仑芯等多种算力。支持 Hugging Face 生态模型格式,可零代码或少量配置完成模型迁移与加速。 结合 KV Cache 复用、动态批处理、算子融合 等技术,在 Llama、Qwen、DeepSeek 等主流模型上实现 吞吐提升 3~10 倍,P99 延迟降低 50%+。提供 OpenAI 兼容 API、Prometheus 监控指标简化多模态模型部署。
