26 Feb 2025

103: 用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进

Podcast cover

晚点聊 LateTalk

本期晚点聊聚焦于大型语言模型中注意力机制的改进,探讨了 DeepSeek 的 NSA 和 Moonshot 的 MoBA 等最新成果。两位清华大学的 AI 研究者肖朝军和傅天予,分享了他们对稀疏注意力机制的理解和实践,指出当前研究的重点已从推理阶段转向训练阶段的效率提升。讨论深入探讨了静态与动态注意力机制的权衡、硬件适配的重要性,以及长文本处理在扩展模型记忆和实现 AGI 中的关键作用。此外,还分析了多模态输入对注意力机制带来的新挑战,强调了在存储压缩和算法创新方面仍有探索空间。

Outlines

Part 1: 背景与嘉宾介绍

Part 2: 技术演进与核心原理

Part 3: NSA与MoBA技术详解

Part 4: 实验评估与学术思考

Part 5: 未来挑战与多模态趋势

Part 6: AGI展望与总结

Sign in to continue reading, translating and more.

Open full episode in Podwise