动态规划求解强化学习任务——策略评估[解析解]

文档中心

动态规划求解强化学习任务——策略评估[解析解]

目录
- 解析方式求解最优价值函数逻辑梳理
- 准备工作
- - 奖赏(Reward)函数
  - 状态转移(State Transition)函数
  - 条件概率密度积分
- 求解过程
- 下一节内容
- 相关参考

希望感兴趣的小伙伴能够看完，虽然使用解析方式求解最优价值函数是很原始的，文章最后也点出时间复杂度极高的问题，但求解析解的推导过程有助于我们对马尔可夫决策过程的理解更加深刻。另外，非常感谢白板大神的视频！！

解析方式求解最优价值函数逻辑梳理

策略评估的基本目标是：在 $\mid s,a)$ 已知的条件下，给定策略 $\pi$ ，对于 $\forall s \in \mathcal S$ ,求出价值函数( $V_\pi(s),q_\pi(s,a)$ )。
换句话说 $\to$ 将状态集合 $\mathcal S$ 中的所有状态对应的价值函数 全部求出来。
设状态集合 $\mathcal S$ 中包含 $|\mathcal S|$ 个状态， $V_\pi(s)$ 可以表示成如下的向量形式(向量形状 $\to |\mathcal S| \times 1$ )：
$V_\pi(s) = \begin{pmatrix} V_\pi(s_1) \\ V_\pi(s_2) \\ V_\pi(s_3)\\ ...\\ V_\pi(s_{|\mathcal S|}) \end{pmatrix}$
向量中的每个元素均表示某一个状态的价值函数。

回顾贝尔曼期望方程(Markov Decision Process, MDP)：
这里使用 $s_k$ 区别一下表示价值函数向量的 $V_\pi(s)$ 中的 $s$ 。
$\begin{aligned} V_\pi(s_k) & = E_\pi[G_t \mid S_t=s_k] \\ & = E_\pi[R_{t+1} + \gamma V_\pi(S_{t+1})] \\ & = \sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)[r + \gamma V_\pi(s')] \\ \end{aligned}$

由于 $V_\pi(s)$ 本身是向量， $s_k,s'$ 均是状态集合 $\mathcal S$ 中的元素，同样地， $V_\pi(s_k),V_\pi(s')$ 也都是向量 $V_\pi(s)$ 中的元素。如果将 $V_\pi(s_k),V_\pi(s')$ 看作未知量 $M, M^{'}$ ，将贝尔曼期望方程展开成如下形式：
$\begin{aligned} M & = \sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)[r + \gamma M'] \\ & = \sum_{a \in \mathcal A}\sum_{s',r}\pi(a \mid s)p(s',r \mid s,a)[r + \gamma M'] \\ & = \sum_{a \in \mathcal A}\sum_{s'}\sum_{r}\{r[\pi(a \mid s)p(s',r \mid s,a)] + \gamma M'[\pi(a \mid s)p(s',r \mid s,a)]\} \end{aligned}$

观察上述展开式：
等式右侧是关于 $a, s^{'}, r$ 的三重累加(积分)形式，并且奖励(Reward) $r$ , $\gamma$ , $\mid s,a)$ 都是已知条件，策略 $\pi$ 是给定的， $M$ 和 $M^{'}$ 之间仅是纯粹的线性关系(一次函数关系)。
一个包含 $|\mathcal S|$ 个元素的 $V_\pi(s)$ 向量 $\to$ 需要对应 $|\mathcal S|$ 个方程的 $|\mathcal S|$ 元方程组对其进行求解 $\to$ 使用矩阵运算对方程组的解进行表示。

准备工作

在明确了最终目标 $\to$ 对 $|\mathcal S|$ 元方程组进行求解，需要做一些准备工作：

奖赏(Reward)函数

奖赏(Reward)函数是马尔可夫决策过程中的知识点，在推导贝尔曼最优方程时，我们使用回报(Return)作为评价标准而不是奖赏函数。
设定 $\mathcal R$ 为奖励集合， $r (s, a)$ 表示智能体在 $t$ 时刻状态 $S_t=s$ 下执行动作 $a$ 时得到的 期望奖赏(expected reward)。其公式表达如下：
$\begin{aligned} r(s,a) & = \mathbb E[R_{t+1} \mid S_t=s,A_t=a] \\ & = \sum_rr\sum_{s'} p(s',r \mid s,a) \end{aligned}$
继续观察，我们发现 $s^{'}$ 只存在于条件概率中，根据 概率密度积分等于1的规则(以 离散型随机变量为例)：
$\sum_{s'}p(s') = 1$
我们可以继续对上式进行化简：
$\begin{aligned} r(s,a) & = \mathbb E[R_{t+1} \mid S_t=s,A_t=a] \\ & = \sum_rr\sum_{s'} p(s',r \mid s,a) \\ & = \sum_r r\times p(r \mid s,a) \\ \end{aligned}$
回过头来，我们看 $r$ 是否可以化简，通过观察， $r$ 不仅在条件概率中存在，条件概率外同样也存在一个 $r$ ，这个 $r$ 是不能化简的。

状态转移(State Transition)函数

状态转移(State Transition)函数表示在状态 $s$ 情况下，执行动作 $a$ ，状态 $\to s'$ 的概率。包含以下2种形式：
$\begin{aligned} p(s',r \mid s,a) & = P[S_{t+1}=s,R_{t+1}=r \mid S_t=s,A_t=a](\sum_{s'}\sum_rp(s',r \mid s,a)=1) \\ p(s' \mid s,a) & = P[S_{t+1}=s \mid S_t=s,A_t=a](\sum_{s'}p(s'\mid s,a)=1) \\ \end{aligned}$
这两种都可以表示马尔可夫决策过程(MDP)中的状态转移概率。
第一行是我们常见的动态特性函数(连续)/状态转移矩阵(离散)，既考虑到进入下一状态的随机性，又考虑到下一状态获得奖赏的随机性；第二行只体现出智能体执行动作后进入下一状态的随机性。

条件概率密度积分

该部分只是推导过程中出现的一些手法，熟练的小伙伴可以跳过~

无论离散型随机变量还是连续型随机变量，它的概率之和均为1 $\to$ 可以理解成对一个事件所有可能发生的情况全部考虑到了，那么这件事情就 必然会发生。
使用数学语言表达如下：
某事件 $\mathcal A$ 存在 $m$ 种可能发生的状态以及对应状态发生的概率如下：
$\begin{aligned} \mathcal A & = \{a_1,a_2,a_3,...,a_m\} \\ P(\mathcal A) & = \{p(a_1),p(a_2),p(a_3),...,p(a_m)\} \\ \end{aligned}$
$\sum_{a \in \mathcal A} p(a) = \sum_{i=1}^m p(a_i) = 1$
在步骤1的基础上，添加一个事件 $\mathcal B$ ,将概率换成条件概率,即：
在事件 $\mathcal B$ 发生的条件下， $\mathcal A$ 事件所有可能发生情况之和：毫无疑问，仍然是1 $\to$ 感觉 $\mathcal B$ 发不发生和 $\mathcal A$ 没什么关系。
数学语言表达如下：
$\sum_{a \in \mathcal A} p(a \mid \mathcal B) = \sum_{i=1}^m p(a_i \mid \mathcal B) = 1$
继续观察，我们在步骤2的基础上添加一个关于 $a$ 的函数：
$\begin{aligned} a+1 & = f(a) \to \sum_{a \in \mathcal A} f(a) p(a \mid \mathcal B) =? \end{aligned}$
这个新式子我们是否可以用步骤1的结论套用吗 $\to$ 显然是不行的。我们可以将上式展开：
$\begin{aligned} \sum_{a \in \mathcal A} f(a) p(a \mid \mathcal B) & = \sum_{i=1}^mf(a_i)p(a_i \mid \mathcal B) \\ & = f(a_1)p(a_1 \mid \mathcal B) + f(a_2)p(a_2 \mid \mathcal B) +...+ f(a_m)p(a_m \mid \mathcal B) \end{aligned}$
这明显是个数学期望的格式。上述式子明显是函数和对应概率的加权结果,仅使用步骤1,2的结论无法对该式进行化简。
继续观察，我们将步骤3中的函数 $f (a)$ 进行替换，替换成一个以 $a,\mathcal B$ 为条件的条件概率 $\mid a, \mathcal B)$ ：
$\sum_{a \in \mathcal A}p(c\mid a, \mathcal B)p(a \mid \mathcal B)$
通过条件概率公式，将上式化简成如下式子(这里用到了1个条件概率的变形公式)：
$\begin{aligned} p(c\mid a, \mathcal B)p(a \mid \mathcal B) & = p(c, a\mid \mathcal B) \\ \sum_{a \in \mathcal A}p(c\mid a, \mathcal B)p(a \mid \mathcal B) & = \sum_{a \in \mathcal A}p(c, a\mid \mathcal B) \end{aligned}$
此时再对 $a$ 求积分，使用步骤2的操作，我们可以将 $a$ 消掉。得到如下结果：
$\sum_{a \in \mathcal A}p(c, a\mid \mathcal B) = p(c \mid \mathcal B)$

求解过程

首先，将贝尔曼期望方程按 $\gamma V_\pi(s')]$ 位置进行展开，分成两个部分：
$\begin{aligned} V_\pi(s) & = \sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)[r + \gamma V_\pi(s')] \\ & = \sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)r + \gamma\sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)V_\pi(s') \end{aligned}$

我们首先观察第一部分：
$\sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)r$
发现其后半部分 $\sum_{s',r}p(s',r \mid s,a)r$ 正好是奖赏函数的完整形式，我们直接使用奖赏函数进行替换：
$\sum_{a \in \mathcal A}\pi(a \mid s)r(s,a)$
继续观察，该部分仍然能够继续化简，根据上面条件概率密度积分中的步骤4将a消去。
设置 $P^{'}$ 为概率 $\pi,p$ 相乘产生的新的概率。化简成如下格式：
$\begin{aligned} \sum_{a \in \mathcal A}\pi(a \mid s)r(s,a) & = \sum_{a \in \mathcal A}\sum_{r}\pi(a \mid s)p(r \mid s,a)r \\ & = \sum_{a \in \mathcal A}\sum_{r}P'(r,a \mid s)r \\ & = \sum_{r}P'(r\mid s)r \\ & = r_\pi(s) \end{aligned}$

实际上，上述式子已经和动作 $a$ 之间没有任何关系了，只和状态 $s$ 相关。我们使用 $r_\pi(s)$ 对上述式子进行表达。
如果从逻辑角度理解， $r_\pi(s)$ 可以理解成 策略 $\pi$ 对期望奖赏 $r (a, s)$ 的期望。(仅是一个符号表示而已)
$\begin{aligned} r_\pi(s) & = \sum_{a \in \mathcal A}\pi(a \mid s)r(s,a) \\ & = \mathbb E[r(s,a) \mid A_t=a,S_t=s] \end{aligned}$

根据上式，一共有 $|\mathcal S|$ 个状态，对于任意1个状态 $\in \mathcal S$ ,都可以得到一个对应的收益数值 $r_\pi(s)$ 进行表示。
和定义价值函数 $V_\pi(s)$ 类似，同样可以定义一个关于 $r_\pi(s)$ 的向量(向量形状 $\to |\mathcal S| \times 1$ )：
$r_\pi(s) = \begin{Bmatrix} r_\pi(s_1) \\ r_\pi(s_2) \\ r_\pi(s_3)\\ ...\\ r_\pi(s_{|\mathcal S|}) \end{Bmatrix}$

接下来观察第二部分：
$\gamma \sum_{a \in \mathcal A}\pi(a \mid s)\sum_{s',r}p(s',r \mid s,a)V_\pi(s')$

观察上式中只有动态特性函数 $\mid s,a)$ 中包含 $r$ ,其余部分均不包含 $\to$ 将 $r$ 消去；
$\gamma \sum_{a \in \mathcal A}\pi(a \mid s)\sum_{s'}p(s' \mid s,a)V_\pi(s')$
中间的 $\mid s,a)$ 就是状态转移函数。
继续向下整理，将 $\sum_{s'}$ 符号移到 $\sum_{a \in \mathcal A}$ 左边：
$\gamma \sum_{s'}\sum_{a \in \mathcal A}\pi(a \mid s)p(s' \mid s,a)V_\pi(s')$
然后来观察中间的项：
$\sum_{a \in \mathcal A}\pi(a \mid s)p(s' \mid s,a)$
发现依然可以使用条件概率密度积分中步骤4的方式消去 $a$ ，进行简化(定义 $P$ 为概率 $\pi,p$ 相乘产生的新的概率)：
$\begin{aligned} \sum_{a \in \mathcal A}\pi(a \mid s)p(s' \mid s,a) & = \sum_{a \in \mathcal A} P(s',a \mid s)\\ & = P(s' \mid s) \\ & = P_\pi(s,s') \end{aligned}$
我们给上述式子定义一个新的符号： $P_\pi(s,s')$
第二部分我们将式子整理为：
$\gamma \sum_{s'}P_\pi(s,s')V_\pi(s')$

合并2个部分的式子：
$V_\pi(s)=r_\pi(s) + \gamma \sum_{s'}P_\pi(s,s')V_\pi(s')$
解析方式求解最优价值函数逻辑梳理 中我们提到： $V_\pi(s)$ 表示的是一个向量，我们如何使用合并后的公式来计算向量中的每一个元素呢？
已知 $s, s^{'}$ 都是状态集合 $\mathcal S$ 中的元素，我们进行这样的设定
$\to$ 它们属于同一个集合，但我们在表示上把它区分开：
令 $s_i$ 是 $s$ 在状态集合 $\mathcal S$ 中选择的状态；
$s_j$ 是 $s^{'}$ 在状态集合 $\mathcal S$ 中选择的状态；
我们对某个状态 $s_i$ 的状态价值函数进行如下表示：
$V_\pi(s_i) = r_\pi(s_i) + \gamma \sum_{j=1}^{|\mathcal S|}P_\pi(s_i,s_j)V_\pi(s_j)$

此时， $V_\pi(s)$ 向量中的其中一个元素已经求出，整个向量可以使用这种方式将所有元素全部求出。
$V_\pi(s) = \begin{pmatrix} V_\pi(s_1) \\ V_\pi(s_2) \\ V_\pi(s_3)\\ ...\\ V_\pi(s_{|\mathcal S|}) \end{pmatrix}= \begin{pmatrix} r_\pi(s_1) + \gamma \sum_{j=1}^{|\mathcal S|}P_\pi(s_1,s_j)V_\pi(s_j) \\ r_\pi(s_2) + \gamma \sum_{j=1}^{|\mathcal S|}P_\pi(s_2,s_j)V_\pi(s_j) \\ r_\pi(s_3) + \gamma \sum_{j=1}^{|\mathcal S|}P_\pi(s_3,s_j)V_\pi(s_j)\\ ...\\ r_\pi(s_{|\mathcal S|}) + \gamma \sum_{j=1}^{|\mathcal S|}P_\pi(s_{|\mathcal S|},s_j)V_\pi(s_j) \end{pmatrix}$

上式实际上就是策略评估——最优价值函数的解析解了。
如果使用矩阵方式进行表达呢？
我们回头观察 $P_\pi(s,s')$ ：
$P_\pi(s,s') = \sum_{a \in \mathcal A}\pi(a \mid s)p(s' \mid s,a)$
从本质上来讲， $P_\pi(s,s')$ 就是以 $s, s^{'}$ 作为自变量，返回的概率值结果。
对于 $\forall s,s' \in \mathcal S$ ( $\mathcal S$ 里共包含 $|\mathcal S|$ 个元素),我们能够产生多少个概率值呢？很明显是 $|\mathcal S| \times |\mathcal S|$ 个。
我们可以将这些概率值结果组成一个矩阵(这里使用表格代替)：

	$s_1$	$s_2$	$s_3$	…	$s_{\mid\mathcal S\mid}$
$s_1$	$P_\pi(s_1,s_1)$	$P_\pi(s_1,s_2)$	$P_\pi(s_1,s_3)$	…	$P_\pi(s_1,s_{\mid\mathcal S\mid})$
$s_2$	$P_\pi(s_2,s_1)$	$P_\pi(s_2,s_2)$	$P_\pi(s_2,s_3)$	…	$P_\pi(s_2,s_{\mid\mathcal S\mid})$
$s_3$	$P_\pi(s_3,s_1)$	$P_\pi(s_3,s_2)$	$P_\pi(s_3,s_3)$	…	$P_\pi(s_3,s_{\mid\mathcal S\mid})$
…	…	…	…	…	…
$s_{\mid\mathcal S\mid}$	$P_\pi(s_{\mid\mathcal S\mid},s_1)$	$P_\pi(s_{\mid\mathcal S\mid},s_2)$	$P_\pi(s_{\mid\mathcal S\mid},s_3)$	…	$P_\pi(s_{\mid\mathcal S\mid},s_{\mid\mathcal S\mid})$

我们定义这个矩阵为 $P_\pi$ 。
结合 $r_\pi(s)$ 和 $V_\pi(s)$ ,我们重新使用矩阵
我们使用矩阵运算重新表示最优价值函数的解析解:
$V_\pi = r_\pi + \gamma P_\pi V_\pi$
其中：(忘了的小伙伴可以回溯一下- -~)
$V_\pi = \begin{pmatrix} V_\pi(s_1) \\ V_\pi(s_2) \\ V_\pi(s_3)\\ ...\\ V_\pi(s_{|\mathcal S|}) \end{pmatrix} r_\pi = \begin{pmatrix} r_\pi(s_1) \\ r_\pi(s_2) \\ r_\pi(s_3)\\ ...\\ r_\pi(s_{|\mathcal S|}) \end{pmatrix}$
对 $V_\pi$ 进行求解(移项 + 求矩阵的逆即可， $I$ 表示单位矩阵)：
$\begin{aligned} V_\pi = r_\pi + \gamma P_\pi V_\pi \\ \to (I - P_\pi)V_\pi = r_\pi \\ \to V_\pi = (I - P_\pi)^{-1}r_\pi \end{aligned}$

至此，策略评估——使用解析方式求解状态价值函数的公式推导全部结束，最后我们观察一下求解该方程组的复杂度：

求解 $P_\pi$ ： $|\mathcal S|\times|\mathcal S|$ 项元素 $\to |\mathcal S|^2$
$r_\pi$ 是 $|\mathcal S|\times1$ 的列向量 $\to |\mathcal S|$

下一节内容

下一节我们会继续讲解策略评估——使用迭代方式求解最优价值函数

动态规划求解强化学习任务——策略评估[解析解]