Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 3: Policy Gradients | Stanford Online

The podcast episode focuses on reinforcement learning, specifically policy gradients, and aims to improve upon expert demonstrations through online learning algorithms. It begins by recapping reinforcement learning concepts like states, actions, trajectories, reward functions, and policies, then introduces policy gradients as a method for maximizing expected rewards. The discussion covers the mathematical derivation and intuition behind policy gradients, including the "log trick" for optimizing the objective function. The episode further explores the implementation of policy gradient algorithms, addressing challenges such as noisy gradients and high variance, and introduces techniques like subtracting a baseline to improve gradient estimation. Finally, it touches on off-policy policy gradients using important sampling to enable multiple gradient steps on a single batch of data.

Outlines

Part 1: Introduction, Fundamentals

Part 2: Mathematical Derivation, Implementation

Part 3: Optimization, Variance Reduction

Part 4: Advanced Techniques, Off-Policy Learning

Sign in to continue reading, translating and more.

Open full episode in Podwise

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 3: Policy Gradients

Stanford Online

Part 1: Introduction, Fundamentals

Introduction to Online Reinforcement Learning and Policy Gradients

The Online Reinforcement Learning Algorithm and Policy Evaluation

Part 2: Mathematical Derivation, Implementation

Deriving the Policy Gradient

Implementing and Understanding Policy Gradients

Policy Gradient Example: Humanoid Walking

Part 3: Optimization, Variance Reduction

Improving the Policy Gradient: Considering Future Rewards

Reducing Variance with Baselines

Policy Gradient Example: Jacket Folding and On-Policy Learning

Part 4: Advanced Techniques, Off-Policy Learning

Off-Policy Policy Gradients and Important Sampling

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 3: Policy Gradients

Stanford Online

Part 1: Introduction, Fundamentals

00:05Introduction to Online Reinforcement Learning and Policy Gradients

Introduction to Online Reinforcement Learning and Policy Gradients

03:03The Online Reinforcement Learning Algorithm and Policy Evaluation

The Online Reinforcement Learning Algorithm and Policy Evaluation

Part 2: Mathematical Derivation, Implementation

13:03Deriving the Policy Gradient

Deriving the Policy Gradient

18:41Implementing and Understanding Policy Gradients

Implementing and Understanding Policy Gradients

26:59Policy Gradient Example: Humanoid Walking

Policy Gradient Example: Humanoid Walking

Part 3: Optimization, Variance Reduction

35:38Improving the Policy Gradient: Considering Future Rewards

Improving the Policy Gradient: Considering Future Rewards

42:06Reducing Variance with Baselines

Reducing Variance with Baselines

50:54Policy Gradient Example: Jacket Folding and On-Policy Learning

Policy Gradient Example: Jacket Folding and On-Policy Learning

Part 4: Advanced Techniques, Off-Policy Learning

56:22Off-Policy Policy Gradients and Important Sampling

Off-Policy Policy Gradients and Important Sampling