21 Mar 2026
1h 45m

谷歌DeepMind研究员揭秘:Coding模型是怎么炼成的,模型上限在哪

Podcast cover

硅谷洞察局

本期硅谷洞察局聚焦于 Coding 大模型的训练范式与未来发展。Warren Chen 作为前 Google DeepMind 研究员,深入解析了大模型训练的三大经典阶段:Pre-training, Supervised Fine-tuning 和 Reinforced Learning,并阐述了从 RLHF(人反馈强化学习)到 RLVF(可验证反馈强化学习)的演进。讨论强调了 Coding 领域中 verifiable reward 的重要性,并提出了 Meet Training 的新概念,即在 SFT 阶段注重 behavior seeding 而非 teach。Warren 认为,未来的创业机会在于抓住 Agentic 能力,构建强大的 Agent Environment,并探索 Agent Identity 的新 IAM 层。

Outlines

Part 1: 大模型训练范式与演进

Part 2: Coding Agent 的爆发与思考逻辑

Part 3: 行业竞争格局与核心优势

Part 4: 评估挑战与 Harness 架构

Part 5: 创业策略与商业本质

Part 6: 未来展望与总结建议

Sign in to continue reading, translating and more.

Open full episode in Podwise