该播客探讨了 2026 年大语言模型的技术发展趋势。重点讨论了 Transformer 架构的持续主导地位,以及混合专家模型在提高模型容量和控制推理成本方面的作用。 塞巴斯蒂安·拉施卡在访谈中提到,尽管涌现出 Mamba 模型等替代方案,Transformer 仍是构建 Sota 模型的首选。 此外,播客还分析了后训练范式的兴起,特别是 RLVR 和 GRPO 算法如何通过自动化验证和简化价值模型来提升模型推理能力,并降低训练成本。最后,还提到了推理扩展作为提升大模型性能的关键驱动力,以及提示词清理等工程细节的重要性。
Outlines
Part 1: 架构演进、模型优化
Part 2: 训练目标、模型分类
Part 3: 后训练范式、推理扩展
Part 4: 行业本质、工作方式
Sign in to continue reading, translating and more.
Open full episode in Podwise
