本期播客采访了两位 AI 研究者,肖朝军博士和傅天予博士,讨论了近期 DeepSeek 的 NSA 和 Moonshot 的 MoBA 等大模型注意力机制改进。 他们深入探讨了注意力机制的原理、Full Attention 的局限性(存储和计算复杂度随文本长度平方增长),以及稀疏注意力(包括静态和动态稀疏注意力)的改进思路。 两位研究者分享了各自的研究成果(InfoLM 和 MOA),并比较了 NSA 和 MoBA 在预训练阶段引入稀疏注意力的创新之处,以及在硬件层面的优化策略(例如使用 Triton 算子)。 最后,他们展望了注意力机制未来的发展方向,包括存储压缩、多模态注意力以及更高级的记忆机制,并探讨了 AGI 的潜在发展路径和挑战。 听众可以从该播客中了解大模型注意力机制的最新进展和未来趋势。
Sign in to continue reading, translating and more.
Continue