目标导向的强化学习：问题定义与 HER 算法详解—强化学习(19)

技术文档

1、目标导向的强化学习：问题定义

1.1、核心要素与符号定义

1.2、核心问题：稀疏奖励困境

1.3、学习目标

2、HER（Hindsight Experience Replay）算法

2.1、 HER 的核心逻辑

2.2、算法步骤（结合 DDPG 举例）

2.2.1、步骤 1：收集原始经验

2.2.2、步骤 2：重构经验（核心！）

2.2.3、步骤 3：替代目标生成策略

2.2.4、步骤 4：策略更新

2.3、为什么 HER 有效？

2.4、公式总结

3、通俗理解

4、完整代码

5、实验结果

1、目标导向的强化学习：问题定义

目标导向的强化学习（Goal-Conditioned Reinforcement Learning）是一类让智能体通过学习策略，从初始状态达到特定目标的任务。与传统强化学习不同，这类任务的核心是 “目标”—— 智能体的行为需围绕 “达成目标” 展开，而目标本身可能随任务变化（如 “机械臂抓取 A 物体”“机械臂抓取 B 物体” 是两个不同目标）。

1.1、核心要素与符号定义

状态（State）：环境的观测信息，记为 $s \\in \\mathcal{S}$ （ $\\mathcal{S}$ 是状态空间）。例如：机械臂的关节角度、物体的坐标。
目标（Goal）：智能体需要达成的状态，记为 $g \\in \\mathcal{G}$ （ $\\mathcal{G}$ 是目标空间，通常与状态空间重合或相关）。例如：机械臂需抓取的物体坐标。
动作（Action）：智能体的行为，记为 $a \\in \\mathcal{A}$ （ $\\mathcal{A}$ 是动作空间）。例如：机械臂关节的旋转角度。
转移函数：状态 - 动作对到下一状态的映射，记为 $s\' \\sim P(s\' | s, a)$ （P 是状态转移概率）。
奖励函数：衡量 “当前状态与目标的差距”，记为 $r(s, a, g)$ 。目标导向任务的奖励通常仅与 “状态是否接近目标” 相关，与动作间接相关。

1.2、核心问题：稀疏奖励困境

目标导向任务的奖励函数通常是稀疏的：仅当状态 s 与目标 g 几乎一致时，才给予正奖励；否则奖励为 0 或负值。 奖励函数示例（机械臂抓取任务）：

智能体在绝大多数尝试中（如 99% 的交互）都得不到正奖励，无法判断 “哪些动作有助于接近目标”；
策略更新缺乏有效信号（梯度难以计算），学习效率极低，甚至无法收敛。

1.3、学习目标

目标导向强化学习的目标是学习一个目标条件策略 $\\pi(a | s, g)$ ，使得在策略引导下，智能体从任意初始状态 \$s_0\$ 出发，通过执行动作序列 $a_0, a_1, ..., a_T$ ，最终达到目标 g 的概率最大化。

2、HER（Hindsight Experience Replay）算法

HER 算法是解决目标导向任务中稀疏奖励问题的经典方法，核心思想是：从 “失败经验” 中 “事后重构” 有效奖励信号—— 即使智能体没达成原定目标，也能通过修改目标，将 “失败轨迹” 转化为 “成功轨迹”，从而提取学习信号。

2.1、 HER 的核心逻辑

假设智能体在一次交互中，原定目标是 g，但实际轨迹为 $\\tau = (s_0, a_0, s_1, a_1, ..., s_T)$ ，最终状态 $s_T \\neq g$ （失败）。 HER 的关键操作是：从轨迹 $\\tau$ 中选一个状态 $s_k$ 作为 “替代目标” $\\hat{g} = s_k$ ，此时轨迹 $\\tau$ 对于新目标 \\ $\\hat{g}$ 是 “成功的”（因为 $s_T$ 可能接近 $\\hat{g}$ ），从而可计算有效奖励。

2.2、算法步骤（结合 DDPG 举例）

HER 通常与离线强化学习算法（如 DDPG）结合使用，流程如下：

2.2.1、步骤 1：收集原始经验

智能体与环境交互，收集轨迹并存储到经验回放池 $\\mathcal{D}$ 。每条经验是一个五元组： $e = (s_t, a_t, r_t, s_{t+1}, g)$ 其中 $r_t = r(s_t, a_t, g)$ 是基于原定目标 g 的奖励（可能为 0）。

2.2.2、步骤 2：重构经验（核心！）

对回放池中的每条原始经验 e，HER 通过替代目标生成策略选一个新目标 $\\hat{g}$ ，重构出一条 “虚拟成功经验” $\\hat{e}$ ： $\\hat{e} = (s_t, a_t, \\hat{r}_t, s_{t+1}, \\hat{g})$ 其中 $\\hat{r}_t = r(s_t, a_t, \\hat{g})$ 是基于新目标 $\\hat{g}$ 的奖励（此时可能为正，因为 $\\hat{g}$ 来自轨迹， $s_{t+1}$ 可能接近 $\\hat{g}$ ）。