Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 4 - LLM Training | Stanford Online

The lecture focuses on the training of Large Language Models (LLMs), contrasting traditional task-specific training with transfer learning. It covers pre-training LLMs on vast datasets to predict the next token, using datasets like Common Crawl, and introduces metrics like FLOPs to measure compute. The discussion highlights the importance of scaling model and training set sizes, referencing the Chinchilla law for optimal compute allocation. Addressing the challenges of pre-training, such as high costs and knowledge cutoff dates, the lecture transitions to strategies for efficient training, including data and model parallelism, Zero Redundancy Optimization (ZERO), and FlashAttention. It also explores quantization techniques like mixed precision training to reduce memory usage and accelerate computation. Finally, the lecture discusses fine-tuning, instruction tuning, and evaluation methods, including benchmarks and user preference rankings, as well as LoRa and quantized LoRa.

Outlines

Part 1: Logistics, Pre-training Foundations

Part 2: Hardware, Optimization, Memory

Part 3: Fine-Tuning, Alignment, Safety

Part 4: Efficient Adaptation

Sign in to continue reading, translating and more.

Continue

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 4 - LLM Training

Stanford Online

Part 1: Logistics, Pre-training Foundations

Midterm and Final Exam Logistics: Dates, Topics, and Format

Transfer Learning: Leveraging Pre-trained Models for Specific Tasks

Pre-training LLMs: Data Sets, Token Size, and Compute Considerations

Scaling Laws and Challenges in Pre-training Large Language Models

Part 2: Hardware, Optimization, Memory

Training LLMs: Hardware, Forward/Backward Passes, and Data Parallelism

Zero Redundancy Optimization (ZERO) and Model Parallelism Techniques

Flash Attention: Optimizing Attention Computation with GPU Memory Hierarchy

Quantization and Mixed Precision Training for Memory Efficiency

Part 3: Fine-Tuning, Alignment, Safety

Supervised Fine-Tuning (SFT): Aligning LLMs for Helpful Assistance

Data Composition and Generalization in Instruction Tuning

Challenges in SFT: Data Quality, Distribution, and Evaluation

User Preference and Alignment in Model Evaluation

Part 4: Efficient Adaptation

LoRa: Efficient Fine-Tuning with Low-Rank Adaptation

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 4 - LLM Training

Stanford Online

Part 1: Logistics, Pre-training Foundations

00:05Midterm and Final Exam Logistics: Dates, Topics, and Format

Midterm and Final Exam Logistics: Dates, Topics, and Format

04:28Transfer Learning: Leveraging Pre-trained Models for Specific Tasks

Transfer Learning: Leveraging Pre-trained Models for Specific Tasks

10:35Pre-training LLMs: Data Sets, Token Size, and Compute Considerations

Pre-training LLMs: Data Sets, Token Size, and Compute Considerations

17:53Scaling Laws and Challenges in Pre-training Large Language Models

Scaling Laws and Challenges in Pre-training Large Language Models

Part 2: Hardware, Optimization, Memory

24:40Training LLMs: Hardware, Forward/Backward Passes, and Data Parallelism

Training LLMs: Hardware, Forward/Backward Passes, and Data Parallelism

35:32Zero Redundancy Optimization (ZERO) and Model Parallelism Techniques

Zero Redundancy Optimization (ZERO) and Model Parallelism Techniques

40:04Flash Attention: Optimizing Attention Computation with GPU Memory Hierarchy

Flash Attention: Optimizing Attention Computation with GPU Memory Hierarchy

52:30Quantization and Mixed Precision Training for Memory Efficiency

Quantization and Mixed Precision Training for Memory Efficiency

Part 3: Fine-Tuning, Alignment, Safety

58:36Supervised Fine-Tuning (SFT): Aligning LLMs for Helpful Assistance

Supervised Fine-Tuning (SFT): Aligning LLMs for Helpful Assistance

1:05:09Data Composition and Generalization in Instruction Tuning

Data Composition and Generalization in Instruction Tuning

1:17:35Challenges in SFT: Data Quality, Distribution, and Evaluation

Challenges in SFT: Data Quality, Distribution, and Evaluation

1:26:24User Preference and Alignment in Model Evaluation

User Preference and Alignment in Model Evaluation

Part 4: Efficient Adaptation

1:37:35LoRa: Efficient Fine-Tuning with Low-Rank Adaptation

LoRa: Efficient Fine-Tuning with Low-Rank Adaptation