89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

张小珺Jùn｜商业访谈录

本期播客访谈了加州大学伯克利分校人工智能实验室博士生潘家怡，主要解读了 DeepSeek 近期发布的 DeepSeek R1 和 R1.0 模型，以及与之相关的 OpenAI 的 O1 模型和 Kimi 的 K1.5 模型的技术报告。访谈首先探讨了 DeepSeek 模型对 AGI 领域的影响，以及与 OpenAI 模型的比较，随后潘家怡详细讲解了 R1 和 R1.0 模型的技术细节，包括强化学习算法（GRPO）、奖励函数设计、以及模型的涌现能力。最后，访谈还讨论了模型的成本、开源对 AI 生态的影响，以及未来研究方向。一个关键的发现是，通过强化学习，模型能够自主发展出自我纠错和搜索能力，这并非由研发人员预先设定，而是模型涌现的能力，并且这种能力可以通过知识蒸馏有效地迁移到更小规模的模型上。

Takeaways

Outlines

Q & A

Preview

How to Get Rich: Every EpisodeNaval