【生成式AI時代下的機器學習(2025)】助教課：利用多張GPU訓練大型語言模型—從零開始介紹DeepSpeed、Liger Kernel、Flash Attention及Quantization

本期节目探讨了如何利用多张 GPU 训练大型语言模型，面临着模型过大无法装入单张 GPU 的挑战。首先介绍了 DeepSpeed 工具，通过 Zero 算法在多张 GPU 上分割优化器状态、梯度和模型参数，有效节省显存，并探讨了 CPU Offload 的优缺点，强调避免过度依赖 CPU 以防速度降低。针对长文本输入时 Activation 占用大量显存的问题，提出了 Activation Recomputation（Gradient Checkpointing）的策略，以及 Flash Attention 和 Liger Kernel 等优化方案，通过重写 Kernel 函数加速 Attention 计算并减少内存占用。最后，讨论了量化（Quantization）技术，通过降低浮点数精度进一步压缩模型大小，以便在资源有限的环境中进行推理，并推荐了 HuggingFace 的 GPU 集群计算指南和 DeepSpeed 实验资源，便于读者深入研究。节目解答了听众关于 CPU 与 GPU 速度差异的问题，并对 Torch 的 Distributed API 与 DeepSpeed 的功能区别进行了详细解释。

Outlines

Sign in to continue reading, translating and more.

Continue

Hung-yi Lee

如何利用多张 GPU 训练大型语言模型？

大型语言模型究竟有多大？

如何优化参数、梯度和优化器状态？

无法装下时，如何使用 CPU 的 RAM？

如何解决 Activation 占太多记忆体的问题？

Liger Kernel 是什么？

什么是量化 (Quantization)？

总结与推荐阅读

DeepSpeed 与 Torch Distributed API 的关系？

为什么 Offload 到 CPU 会很慢？

结束语

【生成式AI時代下的機器學習(2025)】助教課：利用多張GPU訓練大型語言模型—從零開始介紹DeepSpeed、Liger Kernel、Flash Attention及Quantization

Hung-yi Lee

00:00如何利用多张 GPU 训练大型语言模型？

如何利用多张 GPU 训练大型语言模型？

06:20大型语言模型究竟有多大？

大型语言模型究竟有多大？

17:02如何优化参数、梯度和优化器状态？

如何优化参数、梯度和优化器状态？

25:45无法装下时，如何使用 CPU 的 RAM？

无法装下时，如何使用 CPU 的 RAM？

31:59如何解决 Activation 占太多记忆体的问题？

如何解决 Activation 占太多记忆体的问题？

40:55Liger Kernel 是什么？

Liger Kernel 是什么？

44:33什么是量化 (Quantization)？

什么是量化 (Quantization)？

47:06总结与推荐阅读

总结与推荐阅读

50:06DeepSpeed 与 Torch Distributed API 的关系？

DeepSpeed 与 Torch Distributed API 的关系？

52:17为什么 Offload 到 CPU 会很慢？

为什么 Offload 到 CPU 会很慢？

54:42结束语

结束语