Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 11: Model-Based RL | Stanford Online

In this podcast, Chelsea Finn provides a high-level recap of reinforcement learning algorithms, differentiating between online and offline methods, on-policy and off-policy approaches, and policy gradient versus actor-critic methods. She introduces model-based reinforcement learning, emphasizing the learning of a simulator to predict future outcomes based on actions. The discussion covers how to learn dynamics models, use them for planning via gradient-based and sampling-based optimization, and addresses potential issues like data coverage and model inaccuracies. Finn also presents a case study on dexterous robot manipulation, highlighting the use of planning for complex tasks and the importance of data efficiency in fragile hardware environments.

Outlines

Part 1: RL Fundamentals, Model-Based Basics

Part 2: Planning, Optimization Techniques

Part 3: Control Strategies, Practical Applications

Sign in to continue reading, translating and more.

Open full episode in Podwise

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 11: Model-Based RL

Stanford Online

Part 1: RL Fundamentals, Model-Based Basics

Introduction to Online, Offline RL, and Imitation Learning Algorithms

Key Ideas and Challenges of Model-Based Reinforcement Learning

Learning Dynamics Models: Approaches and Considerations

Part 2: Planning, Optimization Techniques

Planning with Dynamics Models: Backpropagation and Optimization

Policy-Free Planning and Sampling-Based Optimization

Cross-Entropy Method and Comparison of Optimization Techniques

Part 3: Control Strategies, Practical Applications

Planning Algorithm and Addressing Data Distribution Mismatch

Model Predictive Control and its Advantages

Addressing Horizon Problems and Case Study: Dexterous Manipulation

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 11: Model-Based RL

Stanford Online

Part 1: RL Fundamentals, Model-Based Basics

00:05Introduction to Online, Offline RL, and Imitation Learning Algorithms

Introduction to Online, Offline RL, and Imitation Learning Algorithms

04:48Key Ideas and Challenges of Model-Based Reinforcement Learning

Key Ideas and Challenges of Model-Based Reinforcement Learning

13:22Learning Dynamics Models: Approaches and Considerations

Learning Dynamics Models: Approaches and Considerations

Part 2: Planning, Optimization Techniques

20:06Planning with Dynamics Models: Backpropagation and Optimization

Planning with Dynamics Models: Backpropagation and Optimization

29:09Policy-Free Planning and Sampling-Based Optimization

Policy-Free Planning and Sampling-Based Optimization

37:35Cross-Entropy Method and Comparison of Optimization Techniques

Cross-Entropy Method and Comparison of Optimization Techniques

Part 3: Control Strategies, Practical Applications

48:32Planning Algorithm and Addressing Data Distribution Mismatch

Planning Algorithm and Addressing Data Distribution Mismatch

55:30Model Predictive Control and its Advantages

Model Predictive Control and its Advantages

1:03:04Addressing Horizon Problems and Case Study: Dexterous Manipulation

Addressing Horizon Problems and Case Study: Dexterous Manipulation