本期访谈的核心是 MiniMax 公司 4560 亿参数开源大模型 MiniMax01 中使用的线性注意力机制 Lightning Attention。访谈首先介绍了该项目负责人钟怡然及其团队从 2021 年开始探索线性注意力机制的历程,以及 MiniMax 公司选择开源 MiniMax01 的原因。随后,深入探讨了线性注意力机制的原理、与 Transformer 架构的差异,以及在 MiniMax01 中如何克服线性注意力在检索能力上的不足(通过混合架构解决)。最后,钟怡然分享了团队进行大规模模型训练的经验(包括 3700 次模型训练的扫描加载实验),以及对未来大模型发展趋势的展望,特别是对线性注意力机制在业界应用的信心和期待。 MiniMax01 在特定条件下比 Full Attention 快 2700 倍,展现了线性注意力机制在长序列处理上的效率优势。
Sign in to continue reading, translating and more.
Continue