百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

百度百舸 · AI计算平台

Kimi-Linear-48B-A3B-Instruct

更新时间：2026-03-16

模型介绍

Kimi-Linear-48B-A3B-Instruct 是月之暗面于 2025年11月8日正式开源的混合线性注意力架构大语言模型。该模型采用混合专家（MoE）架构，总参数量 480 亿，激活参数量 30 亿。

该模型是一种混合线性注意力架构，在各种上下文中（包括短、长和强化学习（RL）扩展机制）都优于传统的全注意力方法。其核心是Kimi Delta Attention (KDA)——这是Gated DeltaNet的一个改进版本，引入了更高效的门控机制，以优化有限状态RNN内存的使用。

该模型在长上下文任务中实现了卓越的性能和硬件效率。它可以将大KV缓存的需求减少多达75%，并将解码吞吐量提高到原来的6倍，适用于长达1M token的上下文。

模型特点

Kimi Delta Attention (KDA): 一种线性注意力机制，通过细粒度门控改进了门控delta规则。
混合架构: 3:1的KDA到全局MLA比率减少了内存使用，同时保持或超越了全注意力的质量。
卓越的性能: 在多种任务中优于全注意力，包括长上下文和RL风格的基准测试，在1.4T token的训练运行中进行了公平比较。
高吞吐量: 实现了高达6倍的解码速度，并显著减少了每个输出token的时间 (TPOT)。

模型架构

API调用

服务部署成功后，可在服务列表查看调用信息

调用示例

Plain Text

1curl -X POST "<访问地址>/v1/chat/completions" \
2-H "Content-Type: application/json" \
3-H "Authorization: Bearer <TOKEN>" \
4-d '{
5    "model": "Kimi-Linear-48B-A3B-Instruct",
6    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}],
7    "max_tokens": 1024,
8    "temperature": 0.7
9}'

评价此篇文章

有帮助没帮助