Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
103: 用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 | 晚点聊 LateTalk | Podwise
Prev
Next
26 Feb 2025
1h
28m
103: 用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
晚点聊 LateTalk
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期播客采访了两位 AI 研究者,肖朝军博士和傅天予博士,讨论了近期 DeepSeek 的 NSA 和 Moonshot 的 MoBA 等大模型注意力机制改进。 他们深入探讨了注意力机制的原理、Full Attention 的局限性(存储和计算复杂度随文本长度平方增长),以及稀疏注意力(包括静态和动态稀疏注意力)的改进思路。 两位研究者分享了各自的研究成果(InfoLM 和 MOA),并比较了 NSA 和 MoBA 在预训练阶段引入稀疏注意力的创新之处,以及在硬件层面的优化策略(例如使用 Triton 算子)。 最后,他们展望了注意力机制未来的发展方向,包括存储压缩、多模态注意力以及更高级的记忆机制,并探讨了 AGI 的潜在发展路径和挑战。 听众可以从该播客中了解大模型注意力机制的最新进展和未来趋势。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval