LINE Yahoo!のネットワークエンジニア Kobayashi 氏とプライベートクラウド担当の Michishita 氏をゲストに迎え、NVIDIA AI SUMMIT JAPAN での発表資料に基づき、GPU クラスタの構築と運用に関する議論が行われた。前半では GPU クラスタの必要性や自社運用メリット(コスト、資源の有効活用)が、後半では GPU ネットワークの特性(RDMA、RoCE v2)、仮想化の是非などが詳細に解説された。具体的には、RDMA がパケットロスに弱く、それを克服するための RoCE v2 とロスレスイーサネットの工夫が説明され、仮想化によるパフォーマンス低下を避けるためベアメタルを採用した事例が紹介された。リスナーは、大規模 AI モデル運用におけるネットワーク設計の複雑さと、その解決策の一端を理解できる。