这是一期技术解读类访谈播客,加州大学伯克利分校人工智能实验室博士生潘家怡作为嘉宾,与主持人张小珺共同解读了 DeepSeek 近期发布的 DeepSeek R1 和 R1.0 模型,以及与之相关的 Kimi 1.5 模型和 OpenAI 的 O1 模型。访谈首先探讨了 DeepSeek 模型对 AGI 领域的影响,以及与 OpenAI 模型的异同,之后潘家怡详细讲解了 DeepSeek R1 论文的核心内容,包括其采用的强化学习算法 GRPO,奖励函数设计,以及模型训练过程中的关键步骤和技术细节,例如 “aha moment” 的出现。最后,访谈还讨论了模型成本估算、数据标注的重要性以及未来研究方向等问题,例如 DeepSeek R1 的训练成本可能在 10 万到 100 万美元之间。通过此次访谈,听众可以深入了解当前大模型领域强化学习技术路线的最新进展,以及相关模型的优缺点和未来发展趋势。
Outlines
Part 1: 开场与宏观趋势
Part 2: 模型技术演进
Part 3: DeepSeek R1模型详解
Part 4: Kimi K1.5模型分析
Part 5: 数据、竞争与未来展望
Sign in to continue reading, translating and more.
Open full episode in Podwise