本期节目探讨了强化学习(RL)及其在大型语言模型(LLM)中的应用,特别是 RIO 算法的兴起。主持人首先请嘉宾吴翼教授介绍了强化学习的概念,将其与传统的机器学习方法区分开来,指出强化学习更关注于一系列决策过程,而非简单的分类或预测,并以游戏和人生为例进行了说明。接着,讨论转向了 RLHF(从人类反馈中强化学习)和 RIO 算法的区别,吴教授解释了 RLHF 主要用于提升 LLM 的易用性,而 RIO 则更侧重于提升模型的智力水平,例如通过 “思考标记”(thinking tokens)机制让模型进行更深入的思考。 更重要的是,讨论深入到 RIO 算法的训练方法,以及如何克服训练过程中奖励函数定义模糊的问题。例如,DeepSeek 团队通过专注于标准答案的问题来训练模型,并最终实现了模型的泛化能力。最后,节目展望了强化学习未来的发展方向,包括模型规模的扩展、不同模型的特色化发展以及人机交互方式的改进,并强调了高质量数据和高效训练框架的重要性。 吴教授还分享了他多年来在强化学习领域的研究经验,以及对人才培养和行业发展趋势的看法,并以其自身经历为例,鼓励大家勇于探索,追求多样化的人生道路。