Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
【人工智能】DeepSeek再发新研究成果NSA | 原生稀疏注意力机制 | 梁文锋参与 | 超快长上下文训练 | 十倍速度提升 | 动态分层 | 粗粒度压缩 | 细粒度选择 | 滑动窗口 | 最佳拍档 | Podwise
Prev
Next
YouTube
19 Feb 2025
11m
【人工智能】DeepSeek再发新研究成果NSA | 原生稀疏注意力机制 | 梁文锋参与 | 超快长上下文训练 | 十倍速度提升 | 动态分层 | 粗粒度压缩 | 细粒度选择 | 滑动窗口
最佳拍档
YouTube
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期节目探讨了 DeepSeek 团队最新发布的原生稀疏注意力机制(NSA)及其在超快上下文训练和推理中的应用。 面对人工智能领域长文本建模的挑战,传统注意力机制的计算复杂度成为瓶颈,例如在解码 64K 长度上下文时,注意力计算占据了 70%-80% 的总延迟。 为此,DeepSeek 提出了 NSA,它通过动态分层稀疏策略、粗力度 token 压缩和细力度 token 选择三个核心组件,有效解决了现有稀疏注意力方法的缺陷,例如事后稀疏化导致的性能退化和难以应对长序列训练的效率问题。 更重要的是,NSA 在硬件层面进行了优化,例如在 Triton 上实现了硬件对齐的稀疏注意力内核,并采用了不同的查询分组策略以实现近乎最优的计算强度平衡,最终在多个基准测试中取得了显著的性能提升和效率提升,尤其在长上下文任务中表现突出。 例如,在 64K 上下文的 “大海捞针” 测试中,NSA 实现了超强的检索精度。 这项研究不仅展示了 DeepSeek 团队强大的工程能力,也为下一代大语言模型处理长文本能力的提升提供了重要的技术突破,预示着未来长文本处理效率将得到显著改善。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval