Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
【分享】两万字深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈 | 北大AI对齐团队 | 超清版 | 最佳拍档 | Podwise
Prev
Next
YouTube
24 Feb 2025
1h
16m
【分享】两万字深度解密DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈 | 北大AI对齐团队 | 超清版
最佳拍档
YouTube
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期节目探讨了 DeepSeek-R1 和 Kimi 1.5 等强化学习驱动的语言模型的技术细节及其社会经济效益。在大型语言模型预训练阶段扩展率逐渐降低的背景下,节目深入分析了后训练阶段强化学习的重要性,特别是 DeepSeek-R1 如何通过纯强化学习,跳过监督微调,显著提升推理能力,并在数学、代码等任务上取得突破。更重要的是,DeepSeek-R1 展现出自我反思和错误修正能力,例如通过增加 “wait” 等停顿词来延长推理时间。与之形成对比的是,Kimi 1.5 则专注于利用长文本 Chain-of-Thought 输出解决推理问题,并探索了长文本到短文本的知识迁移方法。节目还比较了基于强化学习和基于 Search/START 的方法,讨论了奖励模型的挑战,以及如何避免奖励陷阱。最后,节目展望了强推理模型未来的发展方向,包括多模态扩展、强推理赋能智能体以及模型安全性的保障,并提出了相应的技术方案和挑战。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval