YouTube27 Sept 2025
14m

GPU万卡集群如何进行测试!线性度、模型性能、通信带宽意味什么?!

Podcast cover

ZOMI酱

本期播客主要讲解了 AI 集群的整体测试方案,包括测试步骤、万卡集群的性能测试方案、集合通讯测试以及总结与思考。详细介绍了英伟达 Megatron 的测试方案,并提出了国产测试方案应更加详细。内容涵盖模型参数量、并行策略、序列长度、global batch size 等多个指标,以及通讯算法、数据包大小、网络拓扑结构等方面的测试。此外,还探讨了线性度测试方案,通过实例分析了线性度在实际测试环境中的应用,旨在为 AI 集群的交付和性能优化提供指导。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise