课程简介
强化学习是人工智能的核心领域之一。近些年由于其在许多任务上的颠覆性表现,引起了各行各业科研人员的广泛关注。然而许多读者发现强化学习入门并非易事。这是因为强化学习具有较强的数学性和系统性。一方面许多结果和算法背后蕴含着严谨的数学原理,另一方面许多概念和结果相互联系、环环相扣,需要从最开始一点一滴的学习才能确保正确、深入的理解。现在虽然已经有大量的学习资料,但是现有的强化学习的资料要么过于注重直观和文字描述,要么过于数学化需要专业背景。这门课程是由我从零开始设计开发,到2024年已经在西湖大学教授了5次,在此期间积累了大量的经验,最终形成了现在的课程。
课程列表
课程名称 | 课程链接 |
基本概念 |
去学习
|
贝尔曼公式 |
贝尔曼最优公式 |
值迭代与策略迭代 |
蒙特卡洛方法 |
随机近似与随机梯度下降 |
时序差分方法 |
值函数近似 |
策略梯度方法
|
Actor-Critic方法 |