119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

本期《张小珺商业访谈录》由小珺主持，邀请麻省理工学院博士杨松琳探讨人工智能的算法与架构创新，重点分析了 Kimi Linear、Minimax M2、Qwen3-Next 等新模型中的注意力机制。杨松琳作为 Kimi Linear 论文的作者之一，详细讲解了线性注意力机制的原理、发展历程及其在长文本处理中的优势，并对比了 Kimi Linear Attention 与 DeepSeek Sparse Attention 的不同技术路线选择。此外，还讨论了数据墙背景下算法创新的重要性、Transformer 架构的局限性以及未来算法演进的方向，强调硬件亲和性对算法设计的重要性，并认为国内算法创新在架构层面更具优势。

Outlines

Part 1: 引言与线性注意力机制

Part 2: Kimi Linear与混合注意力

Part 3: 注意力机制的未来与算法优化

Part 4: 中国算法创新与行业思考

Sign in to continue reading, translating and more.

Open full episode in Podwise

Zhang Xiaojun Podcast

Part 1: 引言与线性注意力机制

引言：人工智能算法与架构创新及嘉宾介绍

线性注意力机制的研究历程与通俗解释

线性注意力机制在大模型算法框架中的位置及 Kimi Linear 项目的参与

Part 2: Kimi Linear与混合注意力

Kimi Linear 的核心目标与论文重点：KDA 模块的设计与改进

Kimi Linear Attention 与 DeepSeek Sparse Attention 的对比及 Minimax M2 的选择

混合注意力机制的探索方向及线性注意力机制的发展线索

线性注意力机制的改进与 Flash Attention 的出现

线性注意力机制的瓶颈与混合注意力机制的兴起

算法设计中的平衡与 Kimi Linear 的算法建议

Part 3: 注意力机制的未来与算法优化

注意力机制的设计方向与线性注意力及稀疏注意力的未来关系

稀疏注意力选不准的核心瓶颈与线性注意力模块的进步

算法优化的最终目标与 MoE 和 Attention 在大脑中的对应

数据瓶颈下算法创新的重要性与 Transformer 架构的天花板

Part 4: 中国算法创新与行业思考

线性注意力 Transformer 的扩展与中国算法创新

Kimi Linear Attention 与 DeepSeek Sparse Attention 的效果对比及 Kimi Linear 论文的关注点

DeepSeek 的新工作与 Minimax 的选择

进入 AI 行业的心路历程与研究方法

算法考古与线性注意力论文中的数学公式

算法的历史演进

119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

Zhang Xiaojun Podcast

Part 1: 引言与线性注意力机制

00:03引言：人工智能算法与架构创新及嘉宾介绍

引言：人工智能算法与架构创新及嘉宾介绍

04:30线性注意力机制的研究历程与通俗解释

线性注意力机制的研究历程与通俗解释

07:25线性注意力机制在大模型算法框架中的位置及 Kimi Linear 项目的参与

线性注意力机制在大模型算法框架中的位置及 Kimi Linear 项目的参与

Part 2: Kimi Linear与混合注意力

14:05Kimi Linear 的核心目标与论文重点：KDA 模块的设计与改进

Kimi Linear 的核心目标与论文重点：KDA 模块的设计与改进

20:18Kimi Linear Attention 与 DeepSeek Sparse Attention 的对比及 Minimax M2 的选择

Kimi Linear Attention 与 DeepSeek Sparse Attention 的对比及 Minimax M2 的选择

26:27混合注意力机制的探索方向及线性注意力机制的发展线索

混合注意力机制的探索方向及线性注意力机制的发展线索

31:16线性注意力机制的改进与 Flash Attention 的出现

线性注意力机制的改进与 Flash Attention 的出现

37:19线性注意力机制的瓶颈与混合注意力机制的兴起

线性注意力机制的瓶颈与混合注意力机制的兴起

42:29算法设计中的平衡与 Kimi Linear 的算法建议

算法设计中的平衡与 Kimi Linear 的算法建议

Part 3: 注意力机制的未来与算法优化

47:52注意力机制的设计方向与线性注意力及稀疏注意力的未来关系

注意力机制的设计方向与线性注意力及稀疏注意力的未来关系

53:09稀疏注意力选不准的核心瓶颈与线性注意力模块的进步

稀疏注意力选不准的核心瓶颈与线性注意力模块的进步

57:03算法优化的最终目标与 MoE 和 Attention 在大脑中的对应

算法优化的最终目标与 MoE 和 Attention 在大脑中的对应

1:00:10数据瓶颈下算法创新的重要性与 Transformer 架构的天花板

数据瓶颈下算法创新的重要性与 Transformer 架构的天花板

Part 4: 中国算法创新与行业思考

1:04:26线性注意力 Transformer 的扩展与中国算法创新

线性注意力 Transformer 的扩展与中国算法创新

1:07:49Kimi Linear Attention 与 DeepSeek Sparse Attention 的效果对比及 Kimi Linear 论文的关注点

Kimi Linear Attention 与 DeepSeek Sparse Attention 的效果对比及 Kimi Linear 论文的关注点

1:12:06DeepSeek 的新工作与 Minimax 的选择

DeepSeek 的新工作与 Minimax 的选择

1:15:13进入 AI 行业的心路历程与研究方法

进入 AI 行业的心路历程与研究方法

1:20:24算法考古与线性注意力论文中的数学公式

算法考古与线性注意力论文中的数学公式

1:23:10算法的历史演进

算法的历史演进