119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

本期《张小珺商业访谈录》由主持人张小珺对话 MIT 博士杨松琳，深入探讨人工智能算法与架构创新，重点分析了 Kimi Linear、Minimax M2、Qwen3-Next 等新模型，尤其聚焦于线性注意力机制。杨松琳作为 Kimi Linear 论文的作者之一，详细讲解了该工作的核心问题、设计逻辑及效果，并对比了 Kimi Linear 与 DeepSeek Sparse Attention 的不同技术选择。此外，还讨论了线性注意力机制的发展历程、混合注意力架构的未来趋势，以及中国在算法创新方面的优势。杨松琳强调了在数据和算力受限的情况下，算法创新对人工智能发展的重要性，并对年轻研究者进入该领域提出了建议。

Outlines

Part 1: 算法创新与线性注意力

Part 2: 注意力机制的选择与发展

Part 3: 算法优化与架构创新

Part 4: 研究经历与算法演进

Sign in to continue reading, translating and more.

Continue

张小珺Jùn｜商业访谈录

Part 1: 算法创新与线性注意力

国内算法创新与线性注意力机制

杨松琳的研究主线与线性注意力的通俗解释

线性注意力在大语言模型中的位置与 Kimi Linear 的参与

Kimi Linear 论文重点：KDA 模块与衰减率的改进

KDA 的设计逻辑与 Kimi Linear 和 DeepSeek Sparse Attention 的对比

Part 2: 注意力机制的选择与发展

Minimax 在注意力机制上的选择与反复

硅谷公司对混合注意力机制的探索与 Linear Attention 的发展线索

Linear Attention 的改进：DeltaRule 与应用场景

Linear Attention 的共识与混合注意力架构的比例

算法设计中的平衡：表达能力与计算效率

杨松琳对 Kimi Linear 的算法建议与 Attention 的设计方向

Linear Attention 与 Sparse Attention 的未来关系与结合

Sparse Attention 的核心瓶颈与 Kimi Linear 的进步

Part 3: 算法优化与架构创新

算法优化的最终目标与 MOE 和 Attention 的类比

数据瓶颈下算法创新的重要性与 Transformer 架构的天花板

Linear Tension 的扩展与中国算法创新

Kimi Linear 与 DeepSeek Sparse Attention 的效果对比

Kimi Linear 论文的关注点与 DeepSeek 的新工作

Part 4: 研究经历与算法演进

研究员的文化与进入 AI 行业的契机

读博前的调研与研究思路

喜欢架构的原因与数学基础

算法的历史演进

历史工具的运用与 delta rule 的灵感

Transformer 是这一代硬件的天选架构

下一代算法的演进方向

DeepSeek 和 Kimi 在硬件亲核上的对比与建议

119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

张小珺Jùn｜商业访谈录

Part 1: 算法创新与线性注意力

00:03国内算法创新与线性注意力机制

国内算法创新与线性注意力机制

04:30杨松琳的研究主线与线性注意力的通俗解释

杨松琳的研究主线与线性注意力的通俗解释

09:20线性注意力在大语言模型中的位置与 Kimi Linear 的参与

线性注意力在大语言模型中的位置与 Kimi Linear 的参与

14:05Kimi Linear 论文重点：KDA 模块与衰减率的改进

Kimi Linear 论文重点：KDA 模块与衰减率的改进

17:33KDA 的设计逻辑与 Kimi Linear 和 DeepSeek Sparse Attention 的对比

KDA 的设计逻辑与 Kimi Linear 和 DeepSeek Sparse Attention 的对比

Part 2: 注意力机制的选择与发展

22:58Minimax 在注意力机制上的选择与反复

Minimax 在注意力机制上的选择与反复

26:27硅谷公司对混合注意力机制的探索与 Linear Attention 的发展线索

硅谷公司对混合注意力机制的探索与 Linear Attention 的发展线索

31:11Linear Attention 的改进：DeltaRule 与应用场景

Linear Attention 的改进：DeltaRule 与应用场景

38:13Linear Attention 的共识与混合注意力架构的比例

Linear Attention 的共识与混合注意力架构的比例

42:24算法设计中的平衡：表达能力与计算效率

算法设计中的平衡：表达能力与计算效率

46:20杨松琳对 Kimi Linear 的算法建议与 Attention 的设计方向

杨松琳对 Kimi Linear 的算法建议与 Attention 的设计方向

50:14Linear Attention 与 Sparse Attention 的未来关系与结合

Linear Attention 与 Sparse Attention 的未来关系与结合

53:08Sparse Attention 的核心瓶颈与 Kimi Linear 的进步

Sparse Attention 的核心瓶颈与 Kimi Linear 的进步

Part 3: 算法优化与架构创新

57:03算法优化的最终目标与 MOE 和 Attention 的类比

算法优化的最终目标与 MOE 和 Attention 的类比

1:00:10数据瓶颈下算法创新的重要性与 Transformer 架构的天花板

数据瓶颈下算法创新的重要性与 Transformer 架构的天花板

1:04:26Linear Tension 的扩展与中国算法创新

Linear Tension 的扩展与中国算法创新

1:07:49Kimi Linear 与 DeepSeek Sparse Attention 的效果对比

Kimi Linear 与 DeepSeek Sparse Attention 的效果对比

1:10:08Kimi Linear 论文的关注点与 DeepSeek 的新工作

Kimi Linear 论文的关注点与 DeepSeek 的新工作

Part 4: 研究经历与算法演进

1:13:33研究员的文化与进入 AI 行业的契机

研究员的文化与进入 AI 行业的契机

1:17:22读博前的调研与研究思路

读博前的调研与研究思路

1:20:24喜欢架构的原因与数学基础

喜欢架构的原因与数学基础

1:23:37算法的历史演进

算法的历史演进

1:27:57历史工具的运用与 delta rule 的灵感

历史工具的运用与 delta rule 的灵感

1:31:19Transformer 是这一代硬件的天选架构

Transformer 是这一代硬件的天选架构

1:35:42下一代算法的演进方向

下一代算法的演进方向

1:40:24DeepSeek 和 Kimi 在硬件亲核上的对比与建议

DeepSeek 和 Kimi 在硬件亲核上的对比与建议