无题
强化学习基本脉络
这张图包括基本工具和算法/方法两部分,基本工具包括贝尔曼方程等概念。算法包括价值迭代、蒙特卡罗方法等。
Chapter 2
两个基本概念:
One Concept: State Value
$$
V_{\pi}(s) \doteq \mathbb{E}{\pi}\left[G{t} \mid s_{t}=s\right]=\mathbb{E}{\pi}\left[\sum{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right], \text{对于所有的} s \in S
$$
state value代表了奖励的平均值。状态值越高,说明策略越好。可以用来评价策略好还是不好。那么如何分析状态值呢,就要用一个工具:贝尔曼公式。One Tool: Bellman Equation
$$
v_\pi=r_\pi+\gamma P_\pi v_\pi
$$
用一句话描述,他描述了状态与状态值的关系,可以给定一个策略,求出他的状态值。policy evaluation: 后期广泛使用
Chapter 3
贝尔曼最优公式:贝尔曼公式的特殊情况。它和最优策略有关。我们知道,强化学习的最终目标就是求解最优策略。所以第三章非常重要。我们要把握
Two concepts
最优策略$\pi^*$和最优状态值
一个工具
贝尔曼最优公式
$$
v=\max_\pi{r_\pi+\gamma P_\pi v}=f(v)
$$
应用不动点原理分析,论证了一系列基础问题,例如最优策略的存在性,最优策略不一定是惟一的,但最优状态值是唯一的。
Chapter 4
至此进入Algorithm/methods模块。
- Three Algorithms
- Value Iteration
- Policy Iteration
- Truncated Policy Iteration。他是前两种算法的统一描述。
这三个算法都有共同点:就是都是迭代算法。
分别用Policy Update和Value Update这两个步骤进行迭代。后面的蒙特卡洛算法等也都是基于这些步骤。
Chapter 5
**Gap: How to do model-free learning?**没有模型,该怎么学习呢?又要学习什么呢?我们要学习随机变量的期望值:
$$
E(X)=\bar{x}
$$
我们就学习了第一个不需要模型的强化学习算法。
- Algorithms
- MC Basic
- MC Exploring Starts
- MC $\epsilon$-greedy
第一个算法效率很低,但他是最核心的东西,学习这个算法,是为了把复杂的东西与简单的东西分离开,明白一些复杂的算法,核心是很简单的。
我们也能感受到强化学习一环扣一环,要学蒙特卡洛方法,就要先学policy iteration,要学policy iteration就要学value iteration