强化学习基本脉络

这张图包括基本工具和算法/方法两部分，基本工具包括贝尔曼方程等概念。算法包括价值迭代、蒙特卡罗方法等。

Chapter 2

两个基本概念：

One Concept: State Value
$$
V_{\pi}(s) \doteq \mathbb{E}{\pi}\left[G{t} \mid s_{t}=s\right]=\mathbb{E}{\pi}\left[\sum{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right], \text{对于所有的} s \in S
$$
state value代表了奖励的平均值。状态值越高，说明策略越好。可以用来评价策略好还是不好。那么如何分析状态值呢，就要用一个工具：贝尔曼公式。
One Tool: Bellman Equation
$$
v_\pi=r_\pi+\gamma P_\pi v_\pi
$$
用一句话描述，他描述了状态与状态值的关系，可以给定一个策略，求出他的状态值。
policy evaluation: 后期广泛使用

贝尔曼最优公式：贝尔曼公式的特殊情况。它和最优策略有关。我们知道，强化学习的最终目标就是求解最优策略。所以第三章非常重要。我们要把握

至此进入Algorithm/methods模块。

Three Algorithms
1. Value Iteration
2. Policy Iteration
3. Truncated Policy Iteration。他是前两种算法的统一描述。

这三个算法都有共同点：就是都是迭代算法。

分别用Policy Update和Value Update这两个步骤进行迭代。后面的蒙特卡洛算法等也都是基于这些步骤。

**Gap: How to do model-free learning?**没有模型，该怎么学习呢？又要学习什么呢？我们要学习随机变量的期望值：
$$
E(X)=\bar{x}
$$

我们就学习了第一个不需要模型的强化学习算法。

第一个算法效率很低，但他是最核心的东西，学习这个算法，是为了把复杂的东西与简单的东西分离开，明白一些复杂的算法，核心是很简单的。
我们也能感受到强化学习一环扣一环，要学蒙特卡洛方法，就要先学policy iteration，要学policy iteration就要学value iteration