ZOMI 在这期播客中主要分享了万卡 AI 集群的整体建设方案,从 L0 的布线到 L3 的上层软件,围绕整体建设的 Wallmap、L0 的基础建设规则与建议以及 L0 与 L1 建设中常见的光链路脏污问题这三个内容展开。详细讲解了万卡集群的建设步骤,包括规划设计、硬装、软装以及运维验收,并深入探讨了机房的部署、布线、配电和智能化架构。此外,还分析了光链路脏污的原因、识别难点和运维痛点,并提出了相应的解决方案。最后,总结了在机房建设中经常遇到的交叉领域问题,强调了集群运维管理的重要性。
Sign in to continue reading, translating and more.
Continue