【分享】两万字深度解密DeepSeek-R1、Kimi 1.5，强推理模型凭什么火出圈 | 北大AI对齐团队 | 超清版 | 最佳拍档

本期节目探讨了 DeepSeek-R1 和 Kimi 1.5 等强化学习驱动的语言模型的技术细节及其社会经济效益。在大型语言模型预训练阶段扩展率逐渐降低的背景下，节目深入分析了后训练阶段强化学习的重要性，特别是 DeepSeek-R1 如何通过纯强化学习，跳过监督微调，显著提升推理能力，并在数学、代码等任务上取得突破。更重要的是，DeepSeek-R1 展现出自我反思和错误修正能力，例如通过增加 “wait” 等停顿词来延长推理时间。与之形成对比的是，Kimi 1.5 则专注于利用长文本 Chain-of-Thought 输出解决推理问题，并探索了长文本到短文本的知识迁移方法。节目还比较了基于强化学习和基于 Search/START 的方法，讨论了奖励模型的挑战，以及如何避免奖励陷阱。最后，节目展望了强推理模型未来的发展方向，包括多模态扩展、强推理赋能智能体以及模型安全性的保障，并提出了相应的技术方案和挑战。

Outlines

Sign in to continue reading, translating and more.

Continue

【分享】两万字深度解密DeepSeek-R1、Kimi 1.5，强推理模型凭什么火出圈 | 北大AI对齐团队 | 超清版

最佳拍档

DeepSeek-R1 和 Kimi 1.5 技术解读概述

DeepSeek-R1 的强化学习潜力及关键技术

DeepSeek-R1 的训练过程及改进

DeepSeek-V3 基座模型及强化学习下的推理方式涌现

GRPU 算法详解及 DeepSeek-R1 的训练策略

DeepSeek-R1 的社会经济效益及 Kimi 1.5 技术简介

Kimi 1.5 的四阶段训练过程及关键技术

Kimi 1.5 与 DeepSeek-R1 技术对比及强化学习方法的讨论

蒸馏与强化学习的结合、MCTS 和 PRM 的应用

过度思考问题、多模态扩展及未来技术方向

【分享】两万字深度解密DeepSeek-R1、Kimi 1.5，强推理模型凭什么火出圈 | 北大AI对齐团队 | 超清版

最佳拍档

00:00DeepSeek-R1 和 Kimi 1.5 技术解读概述

DeepSeek-R1 和 Kimi 1.5 技术解读概述

05:14DeepSeek-R1 的强化学习潜力及关键技术

DeepSeek-R1 的强化学习潜力及关键技术

11:04DeepSeek-R1 的训练过程及改进

DeepSeek-R1 的训练过程及改进

18:20DeepSeek-V3 基座模型及强化学习下的推理方式涌现

DeepSeek-V3 基座模型及强化学习下的推理方式涌现

21:48GRPU 算法详解及 DeepSeek-R1 的训练策略

GRPU 算法详解及 DeepSeek-R1 的训练策略

28:11DeepSeek-R1 的社会经济效益及 Kimi 1.5 技术简介

DeepSeek-R1 的社会经济效益及 Kimi 1.5 技术简介

31:46Kimi 1.5 的四阶段训练过程及关键技术

Kimi 1.5 的四阶段训练过程及关键技术

40:00Kimi 1.5 与 DeepSeek-R1 技术对比及强化学习方法的讨论

Kimi 1.5 与 DeepSeek-R1 技术对比及强化学习方法的讨论

47:48蒸馏与强化学习的结合、MCTS 和 PRM 的应用

蒸馏与强化学习的结合、MCTS 和 PRM 的应用

58:59过度思考问题、多模态扩展及未来技术方向

过度思考问题、多模态扩展及未来技术方向