94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

大模型技术正从单纯的数据堆叠转向架构创新，以突破长文本处理的计算瓶颈。DeepSeek 与 Kimi 通过 “动态稀疏注意力” 机制，实现对 KV Cache 的动态选择，在保证模型性能的同时大幅提升了预训练与推理效率，甚至在部分基准测试中超越了传统全注意力机制。MiniMax 则采用 “混合架构”，将线性注意力与 Softmax 注意力结合，通过每 7 层线性层搭配 1 层 Softmax 层的设计，在保持检索能力的同时实现了大规模扩展。这些技术路线的演进核心在于算法与硬件的深度对齐，通过将计算转化为矩阵乘法并优化内存访问，有效降低了推理延迟与训练成本。这种架构层面的底层优化，正在成为 AGI 路线图中提升模型推理时间扩展（Test-time Scaling）能力的关键路径。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise

Zhang Xiaojun Podcast

注意力机制在 AGI 路线图中的核心地位

DeepSeek 动态吸收注意力机制的硬件亲和性设计

Kimi 的 MOBA 架构与极简主义技术路线

MiniMax 混合架构与线性注意力的扩展性

大模型架构创新的风险与机遇

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

Zhang Xiaojun Podcast

00:03注意力机制在 AGI 路线图中的核心地位

注意力机制在 AGI 路线图中的核心地位

15:27DeepSeek 动态吸收注意力机制的硬件亲和性设计

DeepSeek 动态吸收注意力机制的硬件亲和性设计

1:10:37Kimi 的 MOBA 架构与极简主义技术路线

Kimi 的 MOBA 架构与极简主义技术路线

1:44:27MiniMax 混合架构与线性注意力的扩展性

MiniMax 混合架构与线性注意力的扩展性

2:21:27大模型架构创新的风险与机遇

大模型架构创新的风险与机遇