强化学习的数学原理

课程简介


强化学习是人工智能的核心领域之一。近些年由于其在许多任务上的颠覆性表现,引起了各行各业科研人员的广泛关注。然而许多读者发现强化学习入门并非易事。这是因为强化学习具有较强的数学性和系统性。一方面许多结果和算法背后蕴含着严谨的数学原理,另一方面许多概念和结果相互联系、环环相扣,需要从最开始一点一滴的学习才能确保正确、深入的理解。现在虽然已经有大量的学习资料,但是现有的强化学习的资料要么过于注重直观和文字描述,要么过于数学化需要专业背景。这门课程是由我从零开始设计开发,到2024年已经在西湖大学教授了5次,在此期间积累了大量的经验,最终形成了现在的课程。



课程列表


课程名称课程链接
基本概念







去学习


贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡洛方法
随机近似与随机梯度下降
时序差分方法
值函数近似
策略梯度方法
Actor-Critic方法