103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

本期播客采访了两位 AI 研究者，肖朝军博士和傅天予博士，讨论了近期 DeepSeek 的 NSA 和 Moonshot 的 MoBA 等大模型注意力机制改进。他们深入探讨了注意力机制的原理、Full Attention 的局限性（存储和计算复杂度随文本长度平方增长），以及稀疏注意力（包括静态和动态稀疏注意力）的改进思路。两位研究者分享了各自的研究成果（InfoLM 和 MOA），并比较了 NSA 和 MoBA 在预训练阶段引入稀疏注意力的创新之处，以及在硬件层面的优化策略（例如使用 Triton 算子）。最后，他们展望了注意力机制未来的发展方向，包括存储压缩、多模态注意力以及更高级的记忆机制，并探讨了 AGI 的潜在发展路径和挑战。听众可以从该播客中了解大模型注意力机制的最新进展和未来趋势。

Outlines

Sign in to continue reading, translating and more.