王书森在本节课中介绍了强化学习的基本概念,包括随机变量、概率密度函数、期望、随机抽样等概率论基础知识。随后,他详细讲解了强化学习中的核心术语,如状态(State)、动作(Action)、智能体(Agent)、策略(Policy)、奖励(Reward)以及状态转移(State Transition),并通过超级玛丽的例子生动地解释了 Agent 与环境的交互过程。此外,他还区分了奖励(Reward)、回报(Return)和价值函数(Value Function),强调了理解这些概念的重要性。最后,他简要介绍了如何利用强化学习来自动玩游戏,并提及了 OpenAI Gym 这一强化学习的标准库及其应用。
Sign in to continue reading, translating and more.
Continue