贝尔曼期望方程(Bellman Expectation Equation)

文档中心

马尔可夫决策过程之贝尔曼期望方程

价值函数与贝尔曼期望方程
- 回顾
- 策略的重要性
- - 策略的具体表现形式
  - 如何判断一个策略 $\pi$ 的优劣性
- 价值函数(Value Function)
- - 状态价值函数(state-value function)
  - 状态-动作价值函数(action-value function)
- 贝尔曼期望方程(Behrman Expectation Equation)
- - $V_\pi(s)$ 和 $q_\pi(s,a)$ 之间的关系
  - 贝尔曼期望方程

上一节介绍了马尔可夫奖励过程中(Markov Reward Process,MRP) 出现的概念，本节引入贝尔曼期望方程，讲述马尔可夫决策过程(Markov Decision Process, MDP)的逻辑具体是如何实现的。

价值函数与贝尔曼期望方程

回顾

在介绍马尔可夫奖励过程(MRP)内容中，讲述了马尔可夫决策过程(MDP)的逻辑场景及相关概念，在这里做一个简单回顾：

在某时刻 $t$ 的状态 $S_t$ 的情况下，在该时刻选择 $A_t$ 并执行，系统必然将当前状态 $S_t \to$ 下一个时刻状态 $S_{t+1}$ ,状态转移的同时返回奖励结果 $R_{t+1}$ 。

在本节中，重新对各概念和条件进行设定；

状态(State) 设置为离散型随机变量，由 $n$ 种状态构成， $\mathcal S$ 表示状态集合， $S^{(k)}$ 表示状态集合 $\mathcal S$ 中编号为 $k$ 的状态， $s, s^{'}$ 均表示某种具体状态；
$\mathcal S=\{S^{(1)},S^{(2)},...,S^{(n)}\},s,s' \in \mathcal S$
动作(Action) 设置为离散型随机变量，由 $m$ 种动作构成， $\mathcal A$ 表示动作集合， $A^{(k)}$ 表示动作集合 $\mathcal A$ 中编号为 $k$ 的动作， $a, a^{'}$ 表示某种具体动作；
$\mathcal A=\{A^{(1)},A^{(2)},...,A^{(m)}\},a,a' \in \mathcal A$
奖励(Reward) 设置为离散型随机变量，由 $s$ 种奖励构成， $\mathcal R$ 表示奖励集合， $R^{(k)}$ 表示奖励集合 $\mathcal R$ 中编号为 $k$ 的奖励， $r$ 表示某种具体奖励；
$\mathcal R=\{R^{(1)},R^{(2)},...,R^{(s)}\},r \in \mathcal R$

针对“状态转移过程中”转移到各状态的具体概率(当前状态转移到其他状态(含自身)的概率信息)：

若概率分布是离散的 $\to$ 称为状态转移矩阵(State Transition Matrix)。
若概率分布是连续的 $\to$ 称为动态特性函数(Dynamic Characteristics Function)。
综合上述设定，在本节使用 $p(s',r\mid s,a)$ 表示状态转移矩阵，即：
$p(s',r\mid s,a) = P(S_{t+1}=s',R_{t+1}=r\mid S_t=s,A_t=a)$

策略的重要性

策略的具体表现形式

马尔可夫决策过程(MDP)的核心在于执行过程中，找到最优的策略 $\pi(a \mid s)$ ;
策略是如何表示/描述的？
我们从动作(Action)的角度解释策略；
上一节中，我们介绍了两种策略：

确定性策略(Deterministic Policy)
随机性策略(Stochastic Policy)

通过对确定性策略/随机性策略的描述，我们发现任意动作 $a$ 都不是独立存在并发生的，而是伴随着状态 $s$ 而产生的；
换句话说，是在状态 $s$ 的条件下 $\to$ 选择某种动作 $a$ 作为当前时刻的待执行动作。

示例：
前提条件：某决策过程中，动作集合 $\mathcal A$ 中包含3种动作；状态集合 $\mathcal S$ 中包含2种状态；
$\mathcal A = \{A^{(1)},A^{(2)},A^{(3)}\},\mathcal S = \{S^{(1)},S^{(2)}\}$
假设一：确定性策略；
若当前状态是 $S^{(1)}$ ,只能唯一确定地选择 $A^{(3)}$ ;
基于上述假设，根据确定性策略， $S^{(1)}$ 状态下动作选择的概率分布如下表：

动作(Action)	概率(Probability)
$A^{(1)}$	0.0
$A^{(2)}$	0.0
$A^{(3)}$	1.0

表格中描述的概率分布就是一种确定性策略(Deterministic Policy)。
假设二：随机性策略：
若当前状态是 $S^{(2)}$ ,动作集合 $\mathcal A$ 中存在2种动作可以选择 $\to A^{(1)},A^{(3)}$ ,并且各动作被选择的概率分布如下：

动作(Action)	概率(Probability)
$A^{(1)}$	0.2
$A^{(3)}$	0.8

同假设一，上述表格描述的也是一种策略 $\to$ 随机性策略(Stochastic Policy)

如何判断一个策略 $\pi$ 的优劣性

在判定一个策略 $\pi$ 的优劣性时，假设状态转移矩阵 $p(s',r\mid s,a)=1 \to$ 此时是一种确定性环境(Deterministic Environment) $\to$ 只能唯一地选择下一个确定的状态；
基于上述条件下，可以直接使用回报(Return) $G_t$ 直接作为评价标准 $\to$ 哪个状态的回报结果大，就选择该状态对应的策略；
但在实际情况中，由于状态转移概率的存在(下一时刻状态的选择存在概率分布)，智能体从当前状态到最终状态可能存在多种状态序列 $\to$ 每个状态序列内有若干不同的回报 $G_t$ ，因而没有办法直接用 $G_t$ 比较的方式来确定策略。

换一种思路：
根据状态转移矩阵的定义 $\to$ 当前状态 $S_t$ 到下一时刻状态 $S_{t+1}$ 的可能性的分布；我们将这种可能性作为权重，使用回报的期望(回报与可能性的加权和)作为策略的评价指标：
期望值越大 $\to$ 选择高回报状态的概率就越大 $\to$ 引入价值函数(Value Function) 来改进策略。

价值函数(Value Function)

价值函数表示当前时刻 $t$ 状态 $S_t$ 确定的情况下，对策略 $\pi(a \mid s)$ 的综合性考量。我们从2种角度对策略进行评判：

状态价值函数(state-value function)

状态价值函数表示当前时刻 $t$ 状态 $S_t=s$ 开始，智能体采取策略 $\pi(a \mid s)$ 得到的期望回报。
$V_\pi(s)=E_\pi[G_t \mid S_t=s]$
我们称 $V_\pi(s)$ 是策略 $\pi(a \mid s)$ 的状态价值函数。可以发现，状态价值函数只包含1个变量 $s$ ，因此状态价值函数是由状态 $s$ 所具有的价值决定的。

状态-动作价值函数(action-value function)

状态动作价值函数表示从当前时刻 $t$ 状态 $S_t=s$ 开始，智能体遵循策略 $\pi(a \mid s) \to$ 执行动作 $a$ 之后的期望回报。
$\begin{aligned} q_\pi(s,a) & =E_\pi[G_t \mid S_t=s,A_t=a] \\ & = \sum_{s',r} p(s',r \mid s,a)[G_t \mid S_t=s,A_t=a] \\ \end{aligned}$
我们称 $q_\pi(s,a)$ 是策略 $\pi$ 的状态动作价值函数。可以发现该函数中包含两个变量 $s$ 、 $a$ ,因此状态动作价值函数是由当前状态 $s$ 和动作 $a$ 的共同价值决定的。

贝尔曼期望方程(Behrman Expectation Equation)

$V_\pi(s)$ 和 $q_\pi(s,a)$ 之间的关系

我们通过观察发现， $q_\pi(s,a)$ 就是在 $V_\pi(s)$ 的基础上选择了某个具体动作 $a$ 产生的回报结果；换句话说， $V_\pi(s)$ 是 $s$ 状态下的策略中所有可能发生的动作 $a$ 对应的 $q_\pi(s,a)$ 的加权平均。
通过上面的推演，我们获得 $V_\pi(s)$ 和 $q_\pi(s,a)$ 之间的关系：
$\begin{aligned} V_\pi(s) & = \sum_{a \in \mathcal A} \pi(a \mid s) [G_t \mid S_t=s,A_t=a] \\ & = \sum_{a \in \mathcal A} \pi(a \mid s) q_\pi(s,a)\\ \end{aligned}$
此时， $V_\pi(s)$ 可以使用 $q_\pi(s,a)$ 表示了，反过来， $q_\pi(s,a)$ 是否可以用 $V_\pi(s)$ 表示呢？
继续观察：
按照逻辑场景，在执行 $a$ 之后，系统必然将当前状态 $S_{t}=s$ 转移到下一时刻状态 $S_{t+1}$ ,假设下一时刻状态转移到 $s^{'}$ ，我们观察 $S_{t+1}$ 的状态价值函数是如何表示的？
$V_\pi(S_{t+1}=s')=E_\pi[G_{t+1} \mid S_{t+1} =s']$
从公式组成上和 $V_\pi(s)$ 没什么区别，只是下标增加了1。我们将 $G_{t+1}$ 进行展开：
$G_{t+1} = R_{t+2} + \gamma R_{t+3} + \gamma^2 R_{t+4} + ...$
再类比一下 $G_{t}$ 的展开式：
$G_{t} = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ...$
我们发现，实际上 $G_t$ 和 $G_{t+1}$ 之间存在如下关系：
$1G_t = R_{t+1} + \gamma G_{t+1}$
得到如下关系，重新对 $q_\pi(s,a)$ 进行展开：
$\begin{aligned} q_\pi(s,a) & =E_\pi[G_t \mid S_t=s,A_t=a] \\ & = \sum_{s',r} p(s',r \mid s,a)[G_t \mid S_t=s,A_t=a] \\ & = \sum_{s',r} p(s',r \mid s,a)[r + \gamma G_{t+1} \mid S_{t+1}=s',A_{t+1}=a'] \\ & = \sum_{s',r} p(s',r \mid s,a)(r + \gamma V_\pi(s'))\\ \end{aligned}$
其中 $V_\pi(s')$ 表示下一时刻状态 $S_{t+1}=s'$ 的状态价值函数。
细心的朋友发现，

期望中的条件怎么突然从 $S_t=s,A_t=a$ 变成了 $S_{t+1}=s',A_{t+1}=a'$ ;
$V_\pi(s')$ 和 $V_\pi(s)$ 用的根本不是相同的策略，一个是 $\pi(a\mid s)$ ，另一个是 $\pi(a' \mid s')$ ( $a^{'}$ 表示下一时刻选择的某个动作，和当前时刻的 $a$ 区分开)

首先解答第一个问题：
当 $G_t \to G_{t+1}$ 时，公式中函数的后验部分不包含任何关于 $t$ 时刻的信息 $\to$ 而是 $t + 1$ 时刻的信息；自然需要转换成 $t + 1$ 时刻的条件。
新的疑问： $S_{t+1}=s',A_{t+1}=a'$ 是随便说换就换的吗？

该问题和第二个问题一同解答：
$\to$ 我们需要回溯之前 $G_t$ 和 $G_{t+1}$ 之间关系的公式：
看起来 $G_t$ 和 $G_{t+1}$ 之间关系是很容易能够归纳出来，但内部的条件是很苛刻的。

我们知道， $G_t$ 是 $t$ 时刻 $S_t=s$ 状态下动作的回报；而 $G_{t+1}$ 是 $t + 1$ 时刻 $S_{t+1}=s'$ 状态下动作回报；
$\to$ 如何使2种相邻时刻并且状态确定的回报产生必然的联系？

总结起来就一句话：我们如何能够在 $S_t=s$ 的情况下使得 $S_{t+1}=s'$ ？

如果当前时刻状态 $S_t=s$ 顺利地转移到下一时刻状态 $S_{t+1}=s'$ ，那么状态，动作可以变化的同时，还可以执行下一时刻的策略 $\pi(a' \mid s')$ ；

至少需要4个条件：

$S_t=s$ 是确定的(这个是必然的，因为它是前提条件)；
$A_t=a$
$R_{t+1}=r$
$S_{t+1}=s'$

但凡这4个条件有1个不是确定的 $\to$ 必然不能满足 $G_t = R_{t+1} + \gamma G_{t+1}$
换句话说，4个条件全部确定，才能保证 $\to t+1$ 时刻路径的唯一性。

回顾上式：
$\begin{aligned} & = \sum_{s',r} p(s',r \mid s,a)[G_t \mid S_t=s,A_t=a] \\ & = \sum_{s',r} p(s',r \mid s,a)[r+ \gamma G_{t+1} \mid S_{t+1}=s',A_{t+1}=a'] \\ \end{aligned}$
该式子中的 $S_t=s,A_t=a,R_{t+1}=r,S_{t+1}=s'$ 都是确定的，该步骤才能成立。
最后一步，根据期望的性质( $C$ 表示常数):

$E (C) = C$
$E (C X) = C E (X)$

根据这2条性质，上式可以写成：
$\begin{aligned} & = \sum_{s',r} p(s',r \mid s,a)[G_t \mid S_t=s,A_t=a] \\ & = \sum_{s',r} p(s',r \mid s,a)[r + \gamma G_{t+1} \mid S_{t+1}=s',A_{t+1}=a'] \\ & = \sum_{s',r} p(s',r \mid s,a)(r + \gamma[G_{t+1} \mid S_{t+1}=s',A_{t+1}=a']) \\ & = \sum_{s',r} p(s',r \mid s,a)(r + \gamma V_\pi(s'))\\ \end{aligned}$