103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

本期晚点聊聚焦于大型语言模型中注意力机制的改进，探讨了 DeepSeek 的 NSA 和 Moonshot 的 MoBA 等最新成果。两位清华大学的 AI 研究者肖朝军和傅天予，分享了他们对稀疏注意力机制的理解和实践，指出当前研究的重点已从推理阶段转向训练阶段的效率提升。讨论深入探讨了静态与动态注意力机制的权衡、硬件适配的重要性，以及长文本处理在扩展模型记忆和实现 AGI 中的关键作用。此外，还分析了多模态输入对注意力机制带来的新挑战，强调了在存储压缩和算法创新方面仍有探索空间。

Outlines

Part 1: 背景与嘉宾介绍

Part 2: 技术演进与核心原理

Part 3: NSA与MoBA技术详解

Part 4: 实验评估与学术思考

Part 5: 未来挑战与多模态趋势

Part 6: AGI展望与总结

Sign in to continue reading, translating and more.

Open full episode in Podwise

晚点聊 LateTalk

Part 1: 背景与嘉宾介绍

大模型注意力机制改进聚焦长文本处理：NSA 与 MoBA

稀疏注意力研究者谈大模型长文本处理的改进方向

Part 2: 技术演进与核心原理

从 RNN 到 Attention：大模型理解长上下文的演进

FullAttention 的局限：存储需求与计算复杂度

改进长文本计算效率：稀疏注意力、线性注意力与底层算子优化

Part 3: NSA与MoBA技术详解

NSA 与 MoBA：稀疏预训练是亮点，解决效率问题至关重要

稀疏注意力训练：达到与稠密注意力一样的性能上限

动态稀疏注意力与静态稀疏注意力：效率与效果的权衡

NSA 的硬件联动优化：block 的措施与 GPU 的友好性

Triton：OpenAI 开源的面向 CUDA 的接口与长推理加速

Part 4: 实验评估与学术思考

理论加速比与实际加速比：训练阶段加速是关键

NSA 与 MoBA：先选块再关注细节，关注临近词

评判注意力改进：效率测试与训练曲线下降情况

实验思路：机制复杂则做消融实验，关注长 COT 生产

Part 5: 未来挑战与多模态趋势

注意力机制的探索方向：存储效率、人脑机制与动态决策

硬件发展速度与多模态：长文本问题的新挑战

多模态注意力的特点：上下文长度与稀疏模式的变化

Part 6: AGI展望与总结

AGI 的本质问题：记忆、架构与能力

长文本推理解决后：解锁自我改进与知识探索

AGI 的动机：自我迭代与自组织

智能的定义：人类的局限与 AI 的未来

晚点聊听众互动与节目信息

103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

晚点聊 LateTalk

Part 1: 背景与嘉宾介绍

00:05大模型注意力机制改进聚焦长文本处理：NSA 与 MoBA

大模型注意力机制改进聚焦长文本处理：NSA 与 MoBA

00:57稀疏注意力研究者谈大模型长文本处理的改进方向

稀疏注意力研究者谈大模型长文本处理的改进方向

Part 2: 技术演进与核心原理

03:32从 RNN 到 Attention：大模型理解长上下文的演进

从 RNN 到 Attention：大模型理解长上下文的演进

11:10FullAttention 的局限：存储需求与计算复杂度

FullAttention 的局限：存储需求与计算复杂度

15:05改进长文本计算效率：稀疏注意力、线性注意力与底层算子优化

改进长文本计算效率：稀疏注意力、线性注意力与底层算子优化

Part 3: NSA与MoBA技术详解

21:25NSA 与 MoBA：稀疏预训练是亮点，解决效率问题至关重要

NSA 与 MoBA：稀疏预训练是亮点，解决效率问题至关重要

25:07稀疏注意力训练：达到与稠密注意力一样的性能上限

稀疏注意力训练：达到与稠密注意力一样的性能上限

29:29动态稀疏注意力与静态稀疏注意力：效率与效果的权衡

动态稀疏注意力与静态稀疏注意力：效率与效果的权衡

32:34NSA 的硬件联动优化：block 的措施与 GPU 的友好性

NSA 的硬件联动优化：block 的措施与 GPU 的友好性

37:03Triton：OpenAI 开源的面向 CUDA 的接口与长推理加速

Triton：OpenAI 开源的面向 CUDA 的接口与长推理加速

Part 4: 实验评估与学术思考

41:48理论加速比与实际加速比：训练阶段加速是关键

理论加速比与实际加速比：训练阶段加速是关键

47:45NSA 与 MoBA：先选块再关注细节，关注临近词

NSA 与 MoBA：先选块再关注细节，关注临近词

50:44评判注意力改进：效率测试与训练曲线下降情况

评判注意力改进：效率测试与训练曲线下降情况

55:02实验思路：机制复杂则做消融实验，关注长 COT 生产

实验思路：机制复杂则做消融实验，关注长 COT 生产

Part 5: 未来挑战与多模态趋势

57:17注意力机制的探索方向：存储效率、人脑机制与动态决策

注意力机制的探索方向：存储效率、人脑机制与动态决策

1:01:15硬件发展速度与多模态：长文本问题的新挑战

硬件发展速度与多模态：长文本问题的新挑战

1:05:05多模态注意力的特点：上下文长度与稀疏模式的变化

多模态注意力的特点：上下文长度与稀疏模式的变化

Part 6: AGI展望与总结

1:07:04AGI 的本质问题：记忆、架构与能力

AGI 的本质问题：记忆、架构与能力

1:11:37长文本推理解决后：解锁自我改进与知识探索

长文本推理解决后：解锁自我改进与知识探索

1:17:17AGI 的动机：自我迭代与自组织

AGI 的动机：自我迭代与自组织

1:22:23智能的定义：人类的局限与 AI 的未来

智能的定义：人类的局限与 AI 的未来

1:27:42晚点聊听众互动与节目信息

晚点聊听众互动与节目信息