谷歌DeepMind研究员揭秘：Coding模型是怎么炼成的，模型上限在哪

本期硅谷洞察局聚焦于 Coding 大模型的训练范式与未来发展。Warren Chen 作为前 Google DeepMind 研究员，深入解析了大模型训练的三大经典阶段：Pre-training, Supervised Fine-tuning 和 Reinforced Learning，并阐述了从 RLHF（人反馈强化学习）到 RLVF（可验证反馈强化学习）的演进。讨论强调了 Coding 领域中 verifiable reward 的重要性，并提出了 Meet Training 的新概念，即在 SFT 阶段注重 behavior seeding 而非 teach。Warren 认为，未来的创业机会在于抓住 Agentic 能力，构建强大的 Agent Environment，并探索 Agent Identity 的新 IAM 层。

Outlines

Part 1: 大模型训练范式与演进

Part 2: Coding Agent 的爆发与思考逻辑

Part 3: 行业竞争格局与核心优势

Part 4: 评估挑战与 Harness 架构

Part 5: 创业策略与商业本质

Part 6: 未来展望与总结建议

Sign in to continue reading, translating and more.

Open full episode in Podwise

硅谷洞察局

Part 1: 大模型训练范式与演进

硅谷洞察局聚焦 Coding Agent：大模型经典范式与未来发展

大模型训练三大范式：Pre-training, Supervised Fine Tuning, Reinforced Learning

从 RLHF 到 RLVF：反馈机制的演进与超人模型的诞生

Coding 与 Math：可验证 Reward 机制与 High Fidelity 过程

Part 2: Coding Agent 的爆发与思考逻辑

Chain-of-Thought 与 Coding 结合：Coding Agent 的大爆发

大模型训练第三阶段：从 SFT 到 RL，突破人类能力限制

大模型训练三阶段总结：从人类喜好区分到机制打分，再到不受拘束的自我进化

大模型训练：大量引导范式与可验证数据灌输

Part 3: 行业竞争格局与核心优势

Anthropic 的优势：高质量数据与验证机制

Coding 外推与 Reward 质量：定义问题为 Coding Problem

透过 Adobe 与 Figma：围绕 Coding Agent 搭建 Workflow

Coding Agent：Pre-training 模型的重要性与 Scaling Law

大模型训练：人才构成与 Post-training 的文化

Part 4: 评估挑战与 Harness 架构

Superhuman Coding Capability：Evaluation 的挑战与 Benchmark 的局限

Harness 时代：抓住用户与模型能力提升的价值

Codex 与 Opus：Meet Training 与 Harness 时代的先发优势

Harness：Foundation 模型与 Environment 之间的桥梁

Harness：脚手架与 OS Operation System

Harness Engineering：时代的过渡产物与 Environment 的重要性

Part 5: 创业策略与商业本质

创业着力点：Agent 缺什么与第一性理解

Agent Environment 与 Agent Identity：未来创业方向

商业规律本质：Brand, Scale, Network Effect, Embedding

创业成功指标：Growth 与 Retention

Part 6: 未来展望与总结建议

大模型时代：降低认知门槛与 Agent 交互

创业建议：不要站在机座模型的对立面

感谢与结束

谷歌DeepMind研究员揭秘：Coding模型是怎么炼成的，模型上限在哪

硅谷洞察局

Part 1: 大模型训练范式与演进

00:06硅谷洞察局聚焦 Coding Agent：大模型经典范式与未来发展

硅谷洞察局聚焦 Coding Agent：大模型经典范式与未来发展

02:35大模型训练三大范式：Pre-training, Supervised Fine Tuning, Reinforced Learning

大模型训练三大范式：Pre-training, Supervised Fine Tuning, Reinforced Learning

07:07从 RLHF 到 RLVF：反馈机制的演进与超人模型的诞生

从 RLHF 到 RLVF：反馈机制的演进与超人模型的诞生

12:09Coding 与 Math：可验证 Reward 机制与 High Fidelity 过程

Coding 与 Math：可验证 Reward 机制与 High Fidelity 过程

Part 2: Coding Agent 的爆发与思考逻辑

15:10Chain-of-Thought 与 Coding 结合：Coding Agent 的大爆发

Chain-of-Thought 与 Coding 结合：Coding Agent 的大爆发

19:34大模型训练第三阶段：从 SFT 到 RL，突破人类能力限制

大模型训练第三阶段：从 SFT 到 RL，突破人类能力限制

26:31大模型训练三阶段总结：从人类喜好区分到机制打分，再到不受拘束的自我进化

大模型训练三阶段总结：从人类喜好区分到机制打分，再到不受拘束的自我进化

30:31大模型训练：大量引导范式与可验证数据灌输

大模型训练：大量引导范式与可验证数据灌输

Part 3: 行业竞争格局与核心优势

35:14Anthropic 的优势：高质量数据与验证机制

Anthropic 的优势：高质量数据与验证机制

40:15Coding 外推与 Reward 质量：定义问题为 Coding Problem

Coding 外推与 Reward 质量：定义问题为 Coding Problem

44:46透过 Adobe 与 Figma：围绕 Coding Agent 搭建 Workflow

透过 Adobe 与 Figma：围绕 Coding Agent 搭建 Workflow

49:53Coding Agent：Pre-training 模型的重要性与 Scaling Law

Coding Agent：Pre-training 模型的重要性与 Scaling Law

53:39大模型训练：人才构成与 Post-training 的文化

大模型训练：人才构成与 Post-training 的文化

Part 4: 评估挑战与 Harness 架构

58:10Superhuman Coding Capability：Evaluation 的挑战与 Benchmark 的局限

Superhuman Coding Capability：Evaluation 的挑战与 Benchmark 的局限

1:03:35Harness 时代：抓住用户与模型能力提升的价值

Harness 时代：抓住用户与模型能力提升的价值

1:07:53Codex 与 Opus：Meet Training 与 Harness 时代的先发优势

Codex 与 Opus：Meet Training 与 Harness 时代的先发优势

1:14:26Harness：Foundation 模型与 Environment 之间的桥梁

Harness：Foundation 模型与 Environment 之间的桥梁

1:16:13Harness：脚手架与 OS Operation System

Harness：脚手架与 OS Operation System

1:20:16Harness Engineering：时代的过渡产物与 Environment 的重要性

Harness Engineering：时代的过渡产物与 Environment 的重要性

Part 5: 创业策略与商业本质

1:23:35创业着力点：Agent 缺什么与第一性理解

创业着力点：Agent 缺什么与第一性理解

1:26:04Agent Environment 与 Agent Identity：未来创业方向

Agent Environment 与 Agent Identity：未来创业方向

1:30:55商业规律本质：Brand, Scale, Network Effect, Embedding

商业规律本质：Brand, Scale, Network Effect, Embedding

1:34:45创业成功指标：Growth 与 Retention

创业成功指标：Growth 与 Retention

Part 6: 未来展望与总结建议

1:37:30大模型时代：降低认知门槛与 Agent 交互

大模型时代：降低认知门槛与 Agent 交互

1:41:15创业建议：不要站在机座模型的对立面

创业建议：不要站在机座模型的对立面

1:44:50感谢与结束

感谢与结束