09 May 2024

DeepSpeed优化器并行ZeRO1/2/3原理 #大模型 #分布式并行 #训练

ZOMI酱

本期播客节目介绍了DeepSpeed中的优化器并行方式和ZeRO方法在深度学习中的应用。优化器并行通过将模型的优化器状态划分并分配给不同的NPU进行更新，减少通信代价，提高数据并行训练效率。ZeRO方法通过改变显存存储方式和切分优化器状态来节约显存，但增加了单卡通信量。同时还讨论了模型并行和数据并行的概念和原理以及DeepSpeed的使用方式和配置参数。

Outlines

Continue

Preview

How to Get Rich: Every EpisodeNaval

DeepSpeed优化器并行ZeRO1/2/3原理 #大模型 #分布式并行 #训练

ZOMI酱

DeepSpeed的优化器并行方式和通讯代价降低的原理和过程

数据并行中的优化器并行及其对显存的影响

ZeRO分布式深度学习中的显存优化和状态切分

介绍模型并行与数据并行的概念和具体原理

DeepSpeed的使用方式和配置参数介绍

DeepSpeed优化器并行ZeRO1/2/3原理 #大模型 #分布式并行 #训练

ZOMI酱

00:05DeepSpeed的优化器并行方式和通讯代价降低的原理和过程

DeepSpeed的优化器并行方式和通讯代价降低的原理和过程

03:47数据并行中的优化器并行及其对显存的影响

数据并行中的优化器并行及其对显存的影响

09:14ZeRO分布式深度学习中的显存优化和状态切分

ZeRO分布式深度学习中的显存优化和状态切分

14:38介绍模型并行与数据并行的概念和具体原理

介绍模型并行与数据并行的概念和具体原理

17:21DeepSpeed的使用方式和配置参数介绍

DeepSpeed的使用方式和配置参数介绍