本期播客主要讲解 DeepSeek 发布的推理模型 R1 及其背后的技术细节。播客首先回顾了 R1 发布前后时间线上的关键事件和业界反应,然后深入分析了 R1 的训练过程,特别是 R1 Zero 的纯强化学习方法以及后续的 SFT 微调过程。 演讲者详细解释了 DeepSeek V3 模型中关键技术的创新,例如 DeepSeek MOE、MLA 和 MTP,并指出这些创新是为了克服硬件限制(使用 H800 而非 H100)而进行的工程优化。最后,播客探讨了 R1 的破圈原因、未来发展方向以及对 AI 产品开发的启示,例如 R1 结合搜索功能带来的全新用户体验。
Sign in to continue reading, translating and more.
Continue