Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 12: Multi-Task RL | Stanford Online

The podcast discusses model-based reinforcement learning, including using learned models with synthetic data generation and determining when to use model-based reinforcement learning. It also covers multi-task imitation learning and reinforcement learning, including conditioning on tasks, goal-reaching tasks, and an approach called hindsight relabeling. The discussion includes planning with gradient-based or sampling-based optimization, updating models with collected data, and replanning to account for errors. The podcast further explores using learned models to learn a policy by augmenting collected data with a learned simulator, generating synthetic data, and updating policies using both real and generated data. Additionally, it addresses multi-task reinforcement learning, focusing on learning a generalist policy conditioned on the task, amortizing complexity across tasks, and leveraging shared structures between tasks, including identifying tasks and using task identifiers.

Outlines

Part 1: Model-Based RL, Planning

Part 2: Multi-Task RL, Task Definition

Part 3: Imitation Learning, Architectures

Part 4: Data Relabeling, Hindsight

Sign in to continue reading, translating and more.

Continue

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 12: Multi-Task RL

Stanford Online

Part 1: Model-Based RL, Planning

Model-Based Reinforcement Learning: Planning and Model Usage

Augmenting Data with Learned Models to Improve Policy Learning

Rewards, Compute Trade-offs, and Stability in Model-Based RL

When to Use Model-Based Reinforcement Learning

Alternative Models and Transition to Multi-Task Learning

Part 2: Multi-Task RL, Task Definition

Introduction to Multi-Task Reinforcement Learning

Defining Tasks and Task Identifiers in Multi-Task RL

Aggregating MDPs and Goal-Conditioned Reinforcement Learning

Part 3: Imitation Learning, Architectures

Multi-Task Imitation Learning and Practical Tricks

Architectures for Multi-Modal Data in Multi-Task Policies

Examples of Multi-Task Imitation Learning Policies

Part 4: Data Relabeling, Hindsight

Multi-Task RL and Data Relabeling

Hindsight Relabeling Algorithm

Goal-Conditioned Version

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 12: Multi-Task RL

Stanford Online

Part 1: Model-Based RL, Planning

00:05Model-Based Reinforcement Learning: Planning and Model Usage

Model-Based Reinforcement Learning: Planning and Model Usage

03:42Augmenting Data with Learned Models to Improve Policy Learning

Augmenting Data with Learned Models to Improve Policy Learning

11:43Rewards, Compute Trade-offs, and Stability in Model-Based RL

Rewards, Compute Trade-offs, and Stability in Model-Based RL

16:25When to Use Model-Based Reinforcement Learning

When to Use Model-Based Reinforcement Learning

24:41Alternative Models and Transition to Multi-Task Learning

Alternative Models and Transition to Multi-Task Learning

Part 2: Multi-Task RL, Task Definition

27:33Introduction to Multi-Task Reinforcement Learning

Introduction to Multi-Task Reinforcement Learning

32:01Defining Tasks and Task Identifiers in Multi-Task RL

Defining Tasks and Task Identifiers in Multi-Task RL

37:32Aggregating MDPs and Goal-Conditioned Reinforcement Learning

Aggregating MDPs and Goal-Conditioned Reinforcement Learning

Part 3: Imitation Learning, Architectures

43:27Multi-Task Imitation Learning and Practical Tricks

Multi-Task Imitation Learning and Practical Tricks

48:13Architectures for Multi-Modal Data in Multi-Task Policies

Architectures for Multi-Modal Data in Multi-Task Policies

52:28Examples of Multi-Task Imitation Learning Policies

Examples of Multi-Task Imitation Learning Policies

Part 4: Data Relabeling, Hindsight

57:38Multi-Task RL and Data Relabeling

Multi-Task RL and Data Relabeling

1:02:30Hindsight Relabeling Algorithm

Hindsight Relabeling Algorithm

1:09:57Goal-Conditioned Version

Goal-Conditioned Version