本期播客主要探讨了 DeepSeek 发布 V4 模型前,通过分析其近期发布的三篇论文来预测 V4 的技术方向。首先分析了 Engram 论文,该论文的核心观点是大模型在重复性的背书工作上浪费了大量的网络深度,提出通过 “查字典” 的方式,即模型在看到特定词汇时直接提取预存信息,来优化计算效率,并得出 75% 的思考和 25% 的记忆配比是最优解。接着讨论了 mHC 论文,该论文挑战了残差连接是最优解的传统观念,通过引入双随机矩阵的约束,解决了 HC 训练不稳定的问题,同时提升了性能。最后提到了 R1 论文的更新,DeepSeek 公开了完整的训练成本和失败案例,展现了其开源精神。这三篇论文都旨在通过更少的计算做更多的事,预示着 V4 可能集成了 mHC 和 Engram 技术。
Sign in to continue reading, translating and more.
Continue