104: 3700次预训练寻找非共识，MiniMax-01开发者讲述4年线性注意力之旅

本期访谈的核心是 MiniMax 公司 4560 亿参数开源大模型 MiniMax01 中使用的线性注意力机制 Lightning Attention。访谈首先介绍了该项目负责人钟怡然及其团队从 2021 年开始探索线性注意力机制的历程，以及 MiniMax 公司选择开源 MiniMax01 的原因。随后，深入探讨了线性注意力机制的原理、与 Transformer 架构的差异，以及在 MiniMax01 中如何克服线性注意力在检索能力上的不足（通过混合架构解决）。最后，钟怡然分享了团队进行大规模模型训练的经验（包括 3700 次模型训练的扫描加载实验），以及对未来大模型发展趋势的展望，特别是对线性注意力机制在业界应用的信心和期待。 MiniMax01 在特定条件下比 Full Attention 快 2700 倍，展现了线性注意力机制在长序列处理上的效率优势。

Outlines

Sign in to continue reading, translating and more.