目前是否有挑战 Transformer 的新型架构?(回答)

First Post:

Blog Link:

Linear RNN 和 Linear Attention。直观理解的话,前者消除 RNN 状态之间的部分非线性依赖,让其在训练时可以展开用 conv (FFT 加速) 或者 parallel scan 高效并行;后者则消除 Attention 计算的部分非线性依赖(主要是 softmax),让其在推理时可以像 RNN 一样高效。

目前特别火的 Mamba (paper, code) 可以归类到 Linear RNN,RWKV (paper, code, homepage) 和 RetNet (paper, code) 可以归类到 Linear Attention。其中 Mamba 和 RWKV-6 重新引入了非线性的 data-dependent gating 来提升模型效果,此外还有 GateLoop (paper, code)、HGRN (paepr, code)、Zoology/Based (paper, code, blog)、GLA (paper, code) 等工作也做了类似的优化。

顺便推荐一下 @sonta @Yu Zhang 等大佬的 flash-linear-attention 这个项目,给诸多 state-of-the-art 的 Linear Attention 工作提供了高效的 triton 代码实现。