本期硅谷洞察局聚焦于 Coding 大模型的训练范式与未来发展。Warren Chen 作为前 Google DeepMind 研究员,深入解析了大模型训练的三大经典阶段:Pre-training, Supervised Fine-tuning 和 Reinforced Learning,并阐述了从 RLHF(人反馈强化学习)到 RLVF(可验证反馈强化学习)的演进。讨论强调了 Coding 领域中 verifiable reward 的重要性,并提出了 Meet Training 的新概念,即在 SFT 阶段注重 behavior seeding 而非 teach。Warren 认为,未来的创业机会在于抓住 Agentic 能力,构建强大的 Agent Environment,并探索 Agent Identity 的新 IAM 层。
Part 1: 大模型训练范式与演进
Part 2: Coding Agent 的爆发与思考逻辑
Part 3: 行业竞争格局与核心优势
Part 4: 评估挑战与 Harness 架构
Part 5: 创业策略与商业本质
Sign in to continue reading, translating and more.
Open full episode in Podwise