强化学习的数学原理-上海大学千学百科AI智慧平台

课程简介

强化学习是人工智能的核心领域之一。近些年由于其在许多任务上的颠覆性表现，引起了各行各业科研人员的广泛关注。然而许多读者发现强化学习入门并非易事。这是因为强化学习具有较强的数学性和系统性。一方面许多结果和算法背后蕴含着严谨的数学原理，另一方面许多概念和结果相互联系、环环相扣，需要从最开始一点一滴的学习才能确保正确、深入的理解。现在虽然已经有大量的学习资料，但是现有的强化学习的资料要么过于注重直观和文字描述，要么过于数学化需要专业背景。这门课程是由我从零开始设计开发，到2024年已经在西湖大学教授了5次，在此期间积累了大量的经验，最终形成了现在的课程。

课程列表

课程名称	课程链接
基本概念	去学习
贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡洛方法
随机近似与随机梯度下降
时序差分方法
值函数近似
策略梯度方法
Actor-Critic方法