本期深思圈播客由 Leo 主持,与嘉宾野格和潇磊共同探讨了如何通过强化学习和训练及产品的理念,提升 AI 编程工具的效率和智能。他们深入分析了 Cursor 的 AI 研究员在 Red Summit 2025 上分享的 Cursor Composer 模型,该模型通过强化学习和产品基础设施的融合,实现了 AI 在编程过程中的快速和智能化。讨论内容涵盖了该模型在效率、token 生成、实际开发场景中的应用,以及 Agent RL 如何通过强化学习与开发工具交互。此外,还探讨了 Agent 式强化学习面临的挑战,如训练和推理的匹配、超长 rollout 带来的问题以及一致性问题,并介绍了 Cursor 团队在基础设施架构和低精度训练方面的独特优化。最后,讨论了强化学习对专业模型打造带来的新变化,以及 AI 系统参与开发团队日常工作对研发效率和方式的改变,强调了构建强化学习系统基础设施的重要性,并总结了 Cursor 团队以用户为中心、解决实际痛点的创新价值观。
Sign in to continue reading, translating and more.
Continue