本期节目探讨了 DeepSeek-R1 和 Kimi 1.5 等强化学习驱动的语言模型的技术细节及其社会经济效益。在大型语言模型预训练阶段扩展率逐渐降低的背景下,节目深入分析了后训练阶段强化学习的重要性,特别是 DeepSeek-R1 如何通过纯强化学习,跳过监督微调,显著提升推理能力,并在数学、代码等任务上取得突破。更重要的是,DeepSeek-R1 展现出自我反思和错误修正能力,例如通过增加 “wait” 等停顿词来延长推理时间。与之形成对比的是,Kimi 1.5 则专注于利用长文本 Chain-of-Thought 输出解决推理问题,并探索了长文本到短文本的知识迁移方法。节目还比较了基于强化学习和基于 Search/START 的方法,讨论了奖励模型的挑战,以及如何避免奖励陷阱。最后,节目展望了强推理模型未来的发展方向,包括多模态扩展、强推理赋能智能体以及模型安全性的保障,并提出了相应的技术方案和挑战。
Sign in to continue reading, translating and more.
Continue