GTC 2026：AI的下一个战场不是模型，而是「推理系统」| S10E04

本期科技早知道聚焦英伟达 GTC 大会，探讨 AI 推理层的新发展。主持人 Diane 在 GTC 现场，与推理公司 Eigen 的代表深入探讨了行业趋势与技术优化。Eigen 公司由 MIT 校友创立，致力于提升模型推理速度。对话中，双方分析了 Agent 爆发对 token 消耗的影响，以及开源模型在优化资源调度方面的潜力。Eigen 的代表详细阐述了 GPU、TPU 和 LPU 的区别，并分享了在 CUDA 层、模型效率和调度层面的优化策略。他们还讨论了不同用户场景下延迟、吞吐量和成本之间的权衡，以及开源模型在推动 AI 技术普及方面的潜力。

Outlines

Part 1: GTC 现场观察与英伟达新架构

Part 2: 推理层崛起与 Eigen 公司背景

Part 3: 行业趋势、成本与性能优化

Part 4: 硬件架构之争：GPU, TPU 与 LPU

Part 5: 深度技术：算子、调度与模型效率

Part 6: 商业模式、Agent 应用与未来展望

Sign in to continue reading, translating and more.

Open full episode in Podwise

What's Next｜科技早知道

Part 1: GTC 现场观察与英伟达新架构

00:00英伟达 GTC 2026：划时代意义与结构化视角

英伟达 GTC 2026：划时代意义与结构化视角

00:58英伟达 GTC 发布：VRubin 架构、CUDA 20 周年及开源自动驾驶软件 Alpha Mile

英伟达 GTC 发布：VRubin 架构、CUDA 20 周年及开源自动驾驶软件 Alpha Mile

02:29老黄的放松状态与 AI 行业共识：Agent 爆发带来信心

老黄的放松状态与 AI 行业共识：Agent 爆发带来信心

Part 2: 推理层崛起与 Eigen 公司背景

03:50Agent 爆发的启发：开源模型优化与推理商业化

Agent 爆发的启发：开源模型优化与推理商业化

05:57英伟达的 LPU 布局：Grok 的加入与 GPU、TPU、LPU 对比

英伟达的 LPU 布局：Grok 的加入与 GPU、TPU、LPU 对比

07:03推理层公司 Eigen：MIT 背景与推理速度最快的团队之一

推理层公司 Eigen：MIT 背景与推理速度最快的团队之一

09:13Eigen 公司名称的含义与创始团队背景

Eigen 公司名称的含义与创始团队背景

11:16Eigen 在 GTC 上被展示：周末的意外与技术实力

Eigen 在 GTC 上被展示：周末的意外与技术实力

Part 3: 行业趋势、成本与性能优化

12:57AI 行业变化：头部集中与 GPU 成本高昂

AI 行业变化：头部集中与 GPU 成本高昂

14:49Reasoning 带来的性能提升与产品优化

Reasoning 带来的性能提升与产品优化

16:10Harness 的应用与黄仁勋的自信

Harness 的应用与黄仁勋的自信

17:45软件层的重要性与市场成熟度

软件层的重要性与市场成熟度

19:06推理层公司的竞争格局：Core Wave、TechEdge AI、Fireworks 等

推理层公司的竞争格局：Core Wave、TechEdge AI、Fireworks 等

21:32Eigen 的技术授权与人才的重要性

Eigen 的技术授权与人才的重要性

Part 4: 硬件架构之争：GPU, TPU 与 LPU

23:34行业分层与英伟达收购 Grok 的争议

行业分层与英伟达收购 Grok 的争议

24:30收购 Grok 的合理性：优化 Decoding 与长 Sequence 推理

收购 Grok 的合理性：优化 Decoding 与长 Sequence 推理

26:30黄仁勋的策略与 Open Cloud 的诞生

黄仁勋的策略与 Open Cloud 的诞生

27:55LPU 的未来与丁迈的观点

LPU 的未来与丁迈的观点

29:33TPU 的竞争与 CUDA 的生态系统

TPU 的竞争与 CUDA 的生态系统

30:33TPU 的策略与 GPU、TPU、LPU 的比喻

TPU 的策略与 GPU、TPU、LPU 的比喻

32:26LPU 的优势与不同厂商的优化角度

LPU 的优势与不同厂商的优化角度

Part 5: 深度技术：算子、调度与模型效率

33:18基于硬件的优化与 CUDA 层的重要性

基于硬件的优化与 CUDA 层的重要性

34:46模型效率与 Speculative Decoding

模型效率与 Speculative Decoding

36:04量化与 Pruning：韩松老师的贡献与调度

量化与 Pruning：韩松老师的贡献与调度

37:42Sparsity 的比喻与 IP4 的挑战

Sparsity 的比喻与 IP4 的挑战

39:24掉精度与 Expert Pruning

掉精度与 Expert Pruning

41:37Expert 调度与 KVCache 调度

Expert 调度与 KVCache 调度

42:56现在的 Influence 比两年前复杂

现在的 Influence 比两年前复杂

44:05延迟、吞吐与成本的权衡

延迟、吞吐与成本的权衡

Part 6: 商业模式、Agent 应用与未来展望

46:45Eigen 的用户 Use Case

Eigen 的用户 Use Case

47:51Hicksfield 的案例与行业发展

Hicksfield 的案例与行业发展

49:00SaaS 商业模式的震荡期

SaaS 商业模式的震荡期

50:13Agent 的安排形式与 Eigen 的产品

Agent 的安排形式与 Eigen 的产品

51:33推理成本下降后的新 Use Case

推理成本下降后的新 Use Case

52:51开源模型的转折点与 Token 的电力系统

开源模型的转折点与 Token 的电力系统

53:52行业非共识：开源模型与 AGI

行业非共识：开源模型与 AGI