Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
DeepSeek开源Day2:DeepEP 原理,NVSHMEM实现All2All通信! | ZOMI酱 | Podwise
Prev
Next
YouTube
11 Mar 2025
22m
DeepSeek开源Day2:DeepEP 原理,NVSHMEM实现All2All通信!
ZOMI酱
YouTube
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期节目深入探讨了 DeepEP,一个用于加速 DeepSpeed 模型训练和推理的开源工具。节目以 DeepSec 2 月 25 日发布的 DeepEP 开源项目为背景,重点解读了其核心功能——All2All 通讯机制。 ZOMI 解释了 All2All 通讯在 MOE 架构中的必要性,因为它能够高效地将数据分发到不同的专家模型(Expert)并聚合结果,从而显著提升大型模型的训练速度。 更重要的是,节目详细分析了 DeepEP 如何利用 NVLink 和 RDMA 技术实现高性能的节点内和节点间通讯,并结合代码示例演示了 Dispatch 和 Combine 这两个关键步骤的具体实现。 随后,节目深入介绍了 DeepEP 背后的技术原理,包括 Hopper 架构以及 NVSHMEM 库的使用。 ZOMI 解释了 Hopper 架构的细节,并着重强调了其大容量 L2 缓存和高带宽对 DeepEP 性能提升的重要性。 与传统的 MPI 通讯方式相比,NVSHMEM 通过共享内存机制实现了 GPU 之间更直接、更高效的数据传输,从而避免了 CPU 的参与,大幅降低了通讯延迟。 这使得 DeepEP 能够在多 GPU 集群环境下实现更快速的模型训练和推理。 最后,节目比较了 DeepEP 与传统基于 NCCL 等集合通讯库的方案的差异。 DeepEP 通过 NVSHMEM,提供了一种更精细化的内存管理和通讯控制方式,从而避免了多层封装带来的性能损耗。 这最终体现在性能的显著提升上,特别是对于像 MOE 这样需要大量 All2All 通讯的模型架构。 总而言之,本节目清晰地阐述了 DeepEP 的核心技术和优势,为听众理解其在大型模型训练和推理中的作用提供了宝贵的参考。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval