Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
Library
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Send
Translate
Trending
Ask AI
Library
You
Enjoy Podwise!
Enjoy Podwise!
10
10
1x
YouTube
Sign in to sync playlist
Playlist 0/50
103: 用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 | 晚点聊 LateTalk | Podwise
Prev
Next
26 Feb 2025
1h
28m
103: 用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
晚点聊 LateTalk
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期播客采访了两位 AI 研究者,肖朝军博士和傅天予博士,讨论了近期 DeepSeek 的 NSA 和 Moonshot 的 MoBA 等大模型注意力机制改进。 他们深入探讨了注意力机制的原理、Full Attention 的局限性(存储和计算复杂度随文本长度平方增长),以及稀疏注意力(包括静态和动态稀疏注意力)的改进思路。 两位研究者分享了各自的研究成果(InfoLM 和 MOA),并比较了 NSA 和 MoBA 在预训练阶段引入稀疏注意力的创新之处,以及在硬件层面的优化策略(例如使用 Triton 算子)。 最后,他们展望了注意力机制未来的发展方向,包括存储压缩、多模态注意力以及更高级的记忆机制,并探讨了 AGI 的潜在发展路径和挑战。 听众可以从该播客中了解大模型注意力机制的最新进展和未来趋势。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval