【人工智能】Transformer为何不可取代 | 拉施卡 | 模型MoE | DeepSeek V3 | RLVR | GRPO | 推理扩展 | o1范式 | 世界模型 | 递归推理 | 后训练 | 最佳拍档

该播客探讨了 2026 年大语言模型的技术发展趋势。重点讨论了 Transformer 架构的持续主导地位，以及混合专家模型在提高模型容量和控制推理成本方面的作用。塞巴斯蒂安·拉施卡在访谈中提到，尽管涌现出 Mamba 模型等替代方案，Transformer 仍是构建 Sota 模型的首选。此外，播客还分析了后训练范式的兴起，特别是 RLVR 和 GRPO 算法如何通过自动化验证和简化价值模型来提升模型推理能力，并降低训练成本。最后，还提到了推理扩展作为提升大模型性能的关键驱动力，以及提示词清理等工程细节的重要性。

Outlines

Part 1: 架构演进、模型优化

Part 2: 训练目标、模型分类

Part 3: 后训练范式、推理扩展

Part 4: 行业本质、工作方式

Sign in to continue reading, translating and more.

Open full episode in Podwise

【人工智能】Transformer为何不可取代 | 拉施卡 | 模型MoE | DeepSeek V3 | RLVR | GRPO | 推理扩展 | o1范式 | 世界模型 | 递归推理 | 后训练

最佳拍档

Part 1: 架构演进、模型优化

Transformer 架构在 2026 年仍占据主导地位：生成质量难以超越

Transformer 架构的优化与混合专家模型的普及

Part 2: 训练目标、模型分类

大语言模型训练目标革新：世界模型与内部状态预测

小型推理模型的兴起及其与通用大型模型的差异

Part 3: 后训练范式、推理扩展

后训练范式的质变：RLVR 与 GRPO 算法的崛起

RLVR 解锁预训练数据中的推理能力与过程奖励模型的探索

推理扩展：提升大模型性能的关键驱动力

Part 4: 行业本质、工作方式

AI 进步的本质：微小技巧与行业分工协作

AI 研究员拉施卡的工作方式：热情驱动与 AI 辅助

【人工智能】Transformer为何不可取代 | 拉施卡 | 模型MoE | DeepSeek V3 | RLVR | GRPO | 推理扩展 | o1范式 | 世界模型 | 递归推理 | 后训练

最佳拍档

Part 1: 架构演进、模型优化

00:00Transformer 架构在 2026 年仍占据主导地位：生成质量难以超越

Transformer 架构在 2026 年仍占据主导地位：生成质量难以超越

01:06Transformer 架构的优化与混合专家模型的普及

Transformer 架构的优化与混合专家模型的普及

Part 2: 训练目标、模型分类

03:38大语言模型训练目标革新：世界模型与内部状态预测

大语言模型训练目标革新：世界模型与内部状态预测

05:35小型推理模型的兴起及其与通用大型模型的差异

小型推理模型的兴起及其与通用大型模型的差异

Part 3: 后训练范式、推理扩展

08:19后训练范式的质变：RLVR 与 GRPO 算法的崛起

后训练范式的质变：RLVR 与 GRPO 算法的崛起

10:12RLVR 解锁预训练数据中的推理能力与过程奖励模型的探索

RLVR 解锁预训练数据中的推理能力与过程奖励模型的探索

13:11推理扩展：提升大模型性能的关键驱动力

推理扩展：提升大模型性能的关键驱动力

Part 4: 行业本质、工作方式

15:27AI 进步的本质：微小技巧与行业分工协作

AI 进步的本质：微小技巧与行业分工协作

17:09AI 研究员拉施卡的工作方式：热情驱动与 AI 辅助

AI 研究员拉施卡的工作方式：热情驱动与 AI 辅助