119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

本期《张小珺商业访谈录》由主持人张小珺对话 MIT 博士杨松琳，深入探讨人工智能算法与架构创新，重点分析了 Kimi Linear、Minimax M2、Queen3Next 等新模型。杨松琳作为 Kimi Linear 论文的作者之一，详细解读了线性注意力机制，讨论了数据瓶颈下算法创新的重要性，以及中国 AI 算法在算力限制下的发展优势。访谈内容涵盖 DeepSeek 的 MOE 混合专家模型、Sparse Attention、Linear Attention 等技术押注，并对 Kimi Linear 的设计逻辑、性能表现，以及 Minimax 在 Attention 机制上的选择与反复进行了分析，同时也探讨了硅谷公司在混合注意力机制上的探索方向。杨松琳还分享了线性注意力机制的发展线索，以及 Linear Attention 和 Sparse Attention 的未来结合的可能性，并对 Transformer 架构的未来演进方向提出了自己的见解。

Outlines

Part 1: 算法创新与线性注意力机制

Part 2: Kimi Linear 技术细节

Part 3: Linear Attention 的发展与应用

Part 4: 算法研究与职业思考

Sign in to continue reading, translating and more.

Open full episode in Podwise

张小珺Jùn｜商业访谈录

Part 1: 算法创新与线性注意力机制

国内算法创新与线性注意力机制

杨松琳的研究主线与线性注意力机制的通俗理解

线性注意力机制的原理与在大模型算法中的位置

Part 2: Kimi Linear 技术细节

Kimi Linear 的工作背景与核心问题

Kimi Delta Attention (KDA) 的技术细节与设计逻辑

Kimi Linear Attention 与 DeepSeek Sparse Attention 的对比

Minimax M2 模型回归 Full Attention 的原因分析

算法选择的反复与硅谷公司对混合注意力机制的探索

Linear Attention 的改进与 DeltaRule 的应用

Part 3: Linear Attention 的发展与应用

Linear Tension 的发展动力与核心优势

Linear Tension 的共识与混合注意力机制的比例

算法设计中的平衡与 Kimi 的算法建议

Attention 的设计方向与 Sparse Attention 的结合

Linear Attention 与 Sparse Attention 的未来关系

Sparse Attention 的瓶颈与 Linear Attention 的优势

算法优化的最终目标与 Transformer 的突破点

MOE 与 Attention 的大脑组件类比与算法创新的重要性

Transformer 架构的天花板与 Linear Tension 的扩展

中国算法创新与 Kimi Linear 的效果对比

Kimi Linear 论文的关注点与 DeepSeek 的 OCR 工作

Part 4: 算法研究与职业思考

算法研究的文化与 AI 行业的心路历程

博士前的调研与研究思路

从历史中学习与数学的重要性

算法的历史演进与技术 Rethink

119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

张小珺Jùn｜商业访谈录

Part 1: 算法创新与线性注意力机制

00:03国内算法创新与线性注意力机制

国内算法创新与线性注意力机制

04:30杨松琳的研究主线与线性注意力机制的通俗理解

杨松琳的研究主线与线性注意力机制的通俗理解

07:10线性注意力机制的原理与在大模型算法中的位置

线性注意力机制的原理与在大模型算法中的位置

Part 2: Kimi Linear 技术细节

11:17Kimi Linear 的工作背景与核心问题

Kimi Linear 的工作背景与核心问题

15:28Kimi Delta Attention (KDA) 的技术细节与设计逻辑

Kimi Delta Attention (KDA) 的技术细节与设计逻辑

20:18Kimi Linear Attention 与 DeepSeek Sparse Attention 的对比

Kimi Linear Attention 与 DeepSeek Sparse Attention 的对比

23:42Minimax M2 模型回归 Full Attention 的原因分析

Minimax M2 模型回归 Full Attention 的原因分析

26:27算法选择的反复与硅谷公司对混合注意力机制的探索

算法选择的反复与硅谷公司对混合注意力机制的探索

31:25Linear Attention 的改进与 DeltaRule 的应用

Linear Attention 的改进与 DeltaRule 的应用

Part 3: Linear Attention 的发展与应用

34:30Linear Tension 的发展动力与核心优势

Linear Tension 的发展动力与核心优势

38:13Linear Tension 的共识与混合注意力机制的比例

Linear Tension 的共识与混合注意力机制的比例

42:29算法设计中的平衡与 Kimi 的算法建议

算法设计中的平衡与 Kimi 的算法建议

47:00Attention 的设计方向与 Sparse Attention 的结合

Attention 的设计方向与 Sparse Attention 的结合

50:14Linear Attention 与 Sparse Attention 的未来关系

Linear Attention 与 Sparse Attention 的未来关系

53:08Sparse Attention 的瓶颈与 Linear Attention 的优势

Sparse Attention 的瓶颈与 Linear Attention 的优势

57:03算法优化的最终目标与 Transformer 的突破点

算法优化的最终目标与 Transformer 的突破点

1:00:10MOE 与 Attention 的大脑组件类比与算法创新的重要性

MOE 与 Attention 的大脑组件类比与算法创新的重要性

1:03:30Transformer 架构的天花板与 Linear Tension 的扩展

Transformer 架构的天花板与 Linear Tension 的扩展

1:07:41中国算法创新与 Kimi Linear 的效果对比

中国算法创新与 Kimi Linear 的效果对比

1:10:08Kimi Linear 论文的关注点与 DeepSeek 的 OCR 工作

Kimi Linear 论文的关注点与 DeepSeek 的 OCR 工作

Part 4: 算法研究与职业思考

1:13:40算法研究的文化与 AI 行业的心路历程

算法研究的文化与 AI 行业的心路历程

1:17:22博士前的调研与研究思路

博士前的调研与研究思路

1:20:24从历史中学习与数学的重要性

从历史中学习与数学的重要性

1:23:10算法的历史演进与技术 Rethink

算法的历史演进与技术 Rethink