强化学习基本脉络

image-20250109094839938

这张图包括基本工具算法/方法两部分,基本工具包括贝尔曼方程等概念。算法包括价值迭代、蒙特卡罗方法等。

Chapter 2

两个基本概念:

  • One Concept: State Value
    $$
    V_{\pi}(s) \doteq \mathbb{E}{\pi}\left[G{t} \mid s_{t}=s\right]=\mathbb{E}{\pi}\left[\sum{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right], \text{对于所有的} s \in S
    $$
    state value代表了奖励的平均值。状态值越高,说明策略越好。可以用来评价策略好还是不好。那么如何分析状态值呢,就要用一个工具:贝尔曼公式。

  • One Tool: Bellman Equation
    $$
    v_\pi=r_\pi+\gamma P_\pi v_\pi
    $$
    用一句话描述,他描述了状态与状态值的关系,可以给定一个策略,求出他的状态值。

  • policy evaluation: 后期广泛使用

Chapter 3

贝尔曼最优公式:贝尔曼公式的特殊情况。它和最优策略有关。我们知道,强化学习的最终目标就是求解最优策略。所以第三章非常重要。我们要把握

  • Two concepts

    最优策略$\pi^*$和最优状态值

  • 一个工具

    贝尔曼最优公式
    $$
    v=\max_\pi{r_\pi+\gamma P_\pi v}=f(v)
    $$
    应用不动点原理分析,论证了一系列基础问题,例如最优策略的存在性,最优策略不一定是惟一的,但最优状态值是唯一的。

Chapter 4

至此进入Algorithm/methods模块。

  • Three Algorithms
    1. Value Iteration
    2. Policy Iteration
    3. Truncated Policy Iteration。他是前两种算法的统一描述。

这三个算法都有共同点:就是都是迭代算法。

分别用Policy Update和Value Update这两个步骤进行迭代。后面的蒙特卡洛算法等也都是基于这些步骤。

Chapter 5

**Gap: How to do model-free learning?**没有模型,该怎么学习呢?又要学习什么呢?我们要学习随机变量的期望值:
$$
E(X)=\bar{x}
$$

我们就学习了第一个不需要模型的强化学习算法。

  • Algorithms
    1. MC Basic
    2. MC Exploring Starts
    3. MC $\epsilon$-greedy

第一个算法效率很低,但他是最核心的东西,学习这个算法,是为了把复杂的东西与简单的东西分离开,明白一些复杂的算法,核心是很简单的。
我们也能感受到强化学习一环扣一环,要学蒙特卡洛方法,就要先学policy iteration,要学policy iteration就要学value iteration