超越Transformer：无Attention与MLPs的BERT与GPT新突破

简介：本文探讨了一种全新的模型架构Monarch Mixer（M2），该架构在BERT和GPT等模型中摒弃了高成本的Attention和MLPs，通过次二次复杂度的Monarch矩阵实现了更优的性能。本文将简明扼要地介绍M2的核心概念、实验结果及其实际应用潜力。

引言

在自然语言处理（NLP）和计算机视觉（CV）领域，Transformer模型凭借其强大的性能，成为了众多任务的首选架构。然而，随着模型规模的扩大和复杂度的增加，Transformer中的Attention和多层感知机（MLPs）逐渐成为性能瓶颈，特别是在处理长序列和高维度数据时。近期，斯坦福大学和纽约州立大学布法罗分校的研究团队提出了一种创新的架构——Monarch Mixer（M2），该架构不仅去除了高成本的Attention和MLPs，还通过次二次复杂度的Monarch矩阵实现了更优的性能。

Monarch Mixer（M2）概述

核心概念：
Monarch Mixer（M2）是一种在序列长度和模型维度上均为次二次复杂度的新架构。其核心在于使用了一类富有表现力的次二次结构化矩阵——Monarch矩阵。Monarch矩阵是快速傅立叶变换（FFT）的泛化形式，涵盖了包括哈达玛变换、托普利兹矩阵、AFDF矩阵和卷积在内的多种线性变换。通过分块对角矩阵的积进行参数化，这些参数被称为Monarch因子，它们的计算复杂度远低于传统的Attention和MLPs。

优势：

次二次复杂度：M2的计算复杂度随序列长度和模型维度的增长是次二次的，这显著降低了处理长序列和高维度数据的成本。
高硬件效率：M2的计算可以通过支持广义矩阵乘法算法（GEMM）的现代硬件高效实现，从而提高了硬件利用率。
优异性能：实验结果表明，M2在多个任务上达到了与Transformer相媲美的性能，甚至在某些情况下更优。

实验结果

研究团队在BERT风格的非因果掩码语言建模任务、ViT风格的图像分类任务以及GPT风格的因果语言建模任务上，对Monarch Mixer和Transformer进行了比较。实验结果表明，在不使用Attention和MLPs的前提下，Monarch Mixer均能达到与Transformer相媲美的水平。具体来说，他们构建了基于M2的M2-BERT模型，并在GLUE基准上进行了测试。结果显示，M2-BERT在参数减少的情况下，性能与BERT相当甚至更优。

实际应用潜力

Monarch Mixer的提出为NLP和CV领域带来了新的可能性。其低复杂度和高硬件效率使得大规模模型的训练和推理变得更加高效。在实际应用中，M2可以用于替代传统的Transformer架构，从而在处理长文本、图像等大数据时节省计算资源并提高性能。此外，M2的灵活性和可扩展性也为未来的研究和应用提供了广阔的空间。

结论

Monarch Mixer作为一种创新的模型架构，通过摒弃高成本的Attention和MLPs，实现了更优的性能和更高的硬件效率。其在多个任务上的优异表现证明了其在实际应用中的潜力。随着研究的深入和技术的成熟，我们有理由相信Monarch Mixer将在NLP和CV领域发挥更大的作用。

未来展望

未来，我们期待看到更多关于Monarch Mixer的研究和应用。一方面，可以进一步探索Monarch矩阵的特性和潜力，以优化M2的性能和效率；另一方面，可以将M2应用于更多的任务和场景中，以验证其普适性和有效性。同时，我们也期待看到M2与其他先进技术的结合，如量化、剪枝等，以进一步降低模型的复杂度和提高性能。

超越Transformer：无Attention与MLPs的BERT与GPT新突破

引言

Monarch Mixer（M2）概述

实验结果

实际应用潜力

结论

未来展望

最热文章