MiMo-V2-Flash

更新时间：2026-04-02

模型介绍

MiMo-V2-Flash 是一个混合专家（Mixture-of-Experts, MoE）语言模型，总参数量为 3090 亿，激活参数量为 150 亿。该模型专为高速推理和智能体工作流设计，采用了一种新颖的混合注意力架构和多词元预测（Multi-Token Prediction, MTP），在显著降低推理成本的同时实现了业界领先的性能。

主要特性

MiMo-V2-Flash 在长上下文建模能力和推理效率之间实现了新的平衡。其主要特性包括：

混合注意力架构：以 5:1 的比例交错使用滑动窗口注意力（Sliding Window Attention, SWA）和全局注意力（Global Attention, GA），并采用激进的 128 词元窗口。这使 KV 缓存存储需求减少了近 6 倍，同时通过可学习的注意力汇聚偏置（attention sink bias）保持了长上下文性能。
多词元预测（MTP）：配备轻量级 MTP 模块（每层 0.33B 参数），使用密集前馈网络（FFN）。这使推理时的输出速度提升三倍，并有助于加速强化学习（RL）训练中的 rollout 过程。
高效预训练：使用 FP8 混合精度和原生 32k 序列长度，在 27T 词元上完成训练。上下文窗口最大支持 256k 长度。
智能体能力：后训练阶段采用多教师在线策略蒸馏（Multi-Teacher On-Policy Distillation, MOPD）和大规模智能体强化学习，在 SWE-Bench 和复杂推理任务上表现卓越。

模型架构

混合滑动窗口注意力机制

MiMo-V2-Flash 通过交替使用局部滑动窗口注意力（SWA）和全局注意力（GA），解决了长上下文带来的二次复杂度问题。

配置：堆叠 (M=8) 个混合模块。每个模块包含 (N=5) 层 SWA，随后接 1 层 GA。
效率：SWA 层使用 128 个 token 的窗口大小，显著减少了 KV 缓存占用。
汇聚偏置（Sink Bias）：引入可学习的注意力汇聚偏置，以在激进的窗口大小下维持模型性能。

轻量级多 Token 预测（MTP）

与传统的推测解码不同，该模型的 MTP 模块原生集成于训练和推理过程中。

结构：采用密集前馈网络（FFN，而非 MoE）和滑动窗口注意力（SWA，而非 GA），以保持较低参数量（每模块 0.33B）。
性能：支持自推测解码，将生成速度提升三倍，并缓解小批量 RL 训练期间 GPU 空闲的问题。

API调用

服务部署成功后，可在服务列表查看调用信息

调用示例

Plain Text

1curl -X POST "<访问地址>/v1/chat/completions" \
2-H "Content-Type: application/json" \
3-H "Authorization: Bearer <TOKEN>" \
4-d '{
5    "model": "MiMo-V2-Flash",
6    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}],
7    "max_tokens": 1024,
8    "temperature": 0.7
9}'

评价此篇文章

有帮助没帮助

百度智能云

百度百舸 · AI计算平台