Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 7: Parallelism 1 | Stanford Online

The lecture focuses on multi-machine optimization, specifically parallelism across machines, to train large models that exceed single GPU capacity. It covers networking basics, mapping hardware to parallelization strategies, and case studies. The discussion includes compute and memory concerns, heterogeneous communication, and various parallelization paradigms. It also covers collective communication operations like all-reduce, broadcast, and all-gather, highlighting the equivalence between all-reduce and reduced scatter followed by all-gather. The lecture further explains data parallelism, model parallelism (pipeline and tensor), and activation parallelism, including optimization techniques like optimizer state sharding (ZeRO) and Fully Sharded Data Parallelism (FSDP), and concludes with examples of how these strategies are used in large-scale distributed training runs, emphasizing the importance of balancing memory, bandwidth, and batch size.

Outlines

Sign in to continue reading, translating and more.

Continue

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 7: Parallelism 1

Stanford Online

Introduction to Multi-Machine Optimization and Parallelization Strategies

Data Parallelism and Optimizer State Sharding

Gradient and Parameter Sharding in Data Parallelism

Model Parallelism: Pipeline and Tensor Parallelism

Activation Memory Management and Parallelism Strategies

Combining Parallelism Strategies and Real-World Examples

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 7: Parallelism 1

Stanford Online

00:04Introduction to Multi-Machine Optimization and Parallelization Strategies

Introduction to Multi-Machine Optimization and Parallelization Strategies

11:33Data Parallelism and Optimizer State Sharding

Data Parallelism and Optimizer State Sharding

27:31Gradient and Parameter Sharding in Data Parallelism

Gradient and Parameter Sharding in Data Parallelism

45:05Model Parallelism: Pipeline and Tensor Parallelism

Model Parallelism: Pipeline and Tensor Parallelism

1:02:06Activation Memory Management and Parallelism Strategies

Activation Memory Management and Parallelism Strategies

1:17:03Combining Parallelism Strategies and Real-World Examples

Combining Parallelism Strategies and Real-World Examples