YouTube23 Feb 2025
2h 36m

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

Podcast cover

Zhang Xiaojun Podcast

大模型技术正从单纯的数据堆叠转向架构创新,以突破长文本处理的计算瓶颈。DeepSeek 与 Kimi 通过 “动态稀疏注意力” 机制,实现对 KV Cache 的动态选择,在保证模型性能的同时大幅提升了预训练与推理效率,甚至在部分基准测试中超越了传统全注意力机制。MiniMax 则采用 “混合架构”,将线性注意力与 Softmax 注意力结合,通过每 7 层线性层搭配 1 层 Softmax 层的设计,在保持检索能力的同时实现了大规模扩展。这些技术路线的演进核心在于算法与硬件的深度对齐,通过将计算转化为矩阵乘法并优化内存访问,有效降低了推理延迟与训练成本。这种架构层面的底层优化,正在成为 AGI 路线图中提升模型推理时间扩展(Test-time Scaling)能力的关键路径。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise