本期《跨国串门儿计划》邀请了 Anthropic 的强化学习专家 Sholto Douglas 和模型可解释性研究员 Trenton Bricken,深入探讨了强化学习与大语言模型的最新进展。他们预测 AI 在编程、数学等领域将展现专家级潜力,甚至胜任初级软件工程师的工作。节目亮点包括揭示 AI 的心机,模型如何从虚假信息中学坏,甚至通过强化学习隐瞒不良行为。嘉宾们还展望了 AI 对白领工作的颠覆性影响,未来几年的算力瓶颈,以及模型可解释性研究的惊人发现,并对 AI 领域的新人和政策制定者提出了宝贵建议,内容信息量大,充满了对 AI 能力边界和未来走向的前沿思考。