YouTube27 Sept 2025
20m

国外万卡AI集群网络洞察!看国外Google、Mate 大厂是如何搭建万卡AI集群!

Podcast cover

ZOMI酱

本期视频主要探讨 AI 集群的网络洞察,首先提出了 AI 集群组网方式为何不直接沿用 HPC 方案的问题。内容分为国外 AI 集群(如谷歌 TPUv4 和 TPUv5e)和国内互联网大厂的组网方式两部分。详细分析了谷歌 TPUv4 的光互联交换机和 3D Torus 拓扑,以及 TPUv5e 的 2D Torus。随后深入研究了 Meta 的 GPU 集群,包括 IB 网络和以太网的组网方式,以及其在拥塞控制和集合通讯性能提升方面的软件优化。最后总结了 Meta 对未来 ScaleUp 和 ScaleOut 融合的看法,并预告下一期将分析国内互联网大厂的 AI 集群组网方式。

Outlines

Part 1: 背景与谷歌 TPU 集群分析

Part 2: Meta 集群组网与拓扑详解

Part 3: 拥塞控制与性能优化

Part 4: 未来展望与总结

Sign in to continue reading, translating and more.

Open full episode in Podwise