Stanford CS234 Reinforcement Learning I Tabular MDP Planning I 2024 I Lecture 2

This lecture on reinforcement learning delves into Markov Decision Processes (MDPs) with a focus on finding optimal decision-making strategies. It highlights two primary approaches: policy iteration, which involves repeatedly evaluating and enhancing a policy until it becomes optimal, and value iteration, which computes the ideal value function across increasing time horizons, ultimately leading to the optimal value for an infinite horizon. The lecture breaks down essential concepts like the Bellman equation, the Bellman backup operator, and demonstrates the proof of policy iteration’s guaranteed improvement. Additionally, it explores the method of policy evaluation through simulation as a practical alternative to analytical techniques, especially beneficial for handling large state spaces.

Outlines

Sign in to continue reading, translating and more.

Continue

Stanford Online

Lecture 2: Reinforcement Learning - Conceptual Refresh & Introduction

Markov Reward Processes: Value Function Calculation

Dynamic Programming for Value Iteration in MRPs

Policy Evaluation and Optimal Policies in MDPs

Policy Iteration: Monotonic Improvement and Convergence

Policy Iteration: Convergence Properties and Handling Ties

Value Iteration: Optimal Value Functions and Bellman Equation

Value Iteration: Contraction Operator and Convergence Proof

Finite Horizon MDPs, Policy Simulation, and Concluding Remarks

Stanford CS234 Reinforcement Learning I Tabular MDP Planning I 2024 I Lecture 2

Stanford Online

00:05Lecture 2: Reinforcement Learning - Conceptual Refresh & Introduction

Lecture 2: Reinforcement Learning - Conceptual Refresh & Introduction

03:07Markov Reward Processes: Value Function Calculation

Markov Reward Processes: Value Function Calculation

12:10Dynamic Programming for Value Iteration in MRPs

Dynamic Programming for Value Iteration in MRPs

18:47Policy Evaluation and Optimal Policies in MDPs

Policy Evaluation and Optimal Policies in MDPs

23:31Policy Iteration: Monotonic Improvement and Convergence

Policy Iteration: Monotonic Improvement and Convergence

36:45Policy Iteration: Convergence Properties and Handling Ties

Policy Iteration: Convergence Properties and Handling Ties

44:53Value Iteration: Optimal Value Functions and Bellman Equation

Value Iteration: Optimal Value Functions and Bellman Equation

59:12Value Iteration: Contraction Operator and Convergence Proof

Value Iteration: Contraction Operator and Convergence Proof

1:08:06Finite Horizon MDPs, Policy Simulation, and Concluding Remarks

Finite Horizon MDPs, Policy Simulation, and Concluding Remarks