【论文阅读笔记】多目标优化 + 强化学习（RL）：Envelope Q-Learning，在Q更新中使用凸包络提升多目标优化效率_多目标优化帕累托最优强化学习

技术文档

A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation【NeurIPS 2019】

文章目录

- 研究背景
- 问题建模：MOMDP with Linear Preferences
- Envelope Q-Learning
- - 广义Bellman最优算子
  - 理论
  - 模型训练
  - 偏好适应（Policy Adaptation）
- 实验
- - Deep Sea Treasure（DST）
  - Fruit Tree Navigation（FTN）
  - 任务导向的对话策略学习
  - 视觉输入的Super Mario游戏环境

本文提出Envelope Q-Learning，通过广义Bellman算子统一学习所有偏好下的最优策略，解决了传统MORL方法的泛化差、样本效率低、不可扩展等问题。本文理论证明了算法的收敛性，实验验证其在多个复杂任务中的有效性，并展示了算法的 few-shot 偏好适应能力。

本文贡献如下

提出“Envelope Q-Learning”算法：
- 引入广义Bellman最优算子，将偏好作为输入，学习一个统一的Q函数；
- 利用凸包（convex envelope）思想，避免传统方法对每个偏好单独训练策略的不可扩展性问题；
- 提供理论收敛性证明：证明所提算子是收缩映射，保证收敛。
设计偏好适应机制：
- 在测试阶段，仅需少量样本即可推断出隐藏偏好（通过策略梯度+随机搜索）；
- 支持few-shot policy adaptation，无需重新训练策略网络。
实验验证：
- 在4个不同领域（Deep Sea Treasure、Fruit Tree Navigation、对话系统、Super Mario）上验证；
- 显著优于现有基线（如MOFQI、CN+OLS、Scalarized Q-Learning）；
- 展示在仅15~100个episode内即可准确推断隐藏偏好。

研究背景

多目标强化学习（Multi-Objective Reinforcement Learning，MORL）旨在同时优化多个可能相互冲突的目标，而不是传统强化学习中的单一标量奖励。例如：

对话系统：用户可能偏好简洁对话（brevity）或高成功率（success），两者权重未知；
游戏智能体：在《Super Mario》中，可能需权衡“通关速度”、“收集金币”、“击败敌人”等多个目标；
导航系统：路径选择需权衡“时间最短”与“能耗最低”。

传统RL将多个目标加权求和为一个标量奖励，但这种方法存在两个主要缺陷：

权重设计困难：需要人工设定目标权重，且难以适应不同任务或用户偏好；
泛化能力差：训练好的策略无法适应新任务中不同的偏好组合。

而现有的帕累托前沿方法需维护大量策略，计算开销大且难以扩展至高维目标空间

因此，MORL的核心挑战在于：如何学习一个统一的策略模型，使其能在未知或变化的线性偏好下，快速适应并输出最优策略。即，如何用单一策略网络覆盖所有偏好（ $\\omega$ ），支持：

零样本适应：给定新偏好 $\\omega$ ，即时输出最优策略。
偏好推断：通过少量交互自动识别未知偏好。

问题建模：MOMDP with Linear Preferences

环境建模为多目标马尔可夫决策过程（MOMDP）：
- 状态空间 $\\mathcal{S}$ 、动作空间 $\\mathcal{A}$ 、转移概率 $P(s\'|s,a)$ ；
- 奖励为向量 $\\in \\mathbb{R}^m$ ；
- 偏好为线性权重向量 $\\omega \\in \\mathbb{R}^m$ ，满足 $\\|\\omega\\|_1 = 1$ ；
- 标量效用为 $f_\\omega(r) = \\omega^\\top r$ 。
目标：学习一个策略 $\\pi(a|s, \\omega)$ ，使得对于任意 $\\omega$ ，策略最大化期望回报：
$\\pi^*(\\omega) = \\arg\\max_\\pi \\mathbb{E}_\\pi \\left[ \\sum_t \\gamma^t \\omega^\\top r(s_t, a_t) \\right]$

Envelope Q-Learning

广义Bellman最优算子

传统单目标Bellman算子：
$\\gamma \\max_{a\'} Q(s\', a\')$
本文将以上算子扩展到多目标问题，定义多目标Q函数 $Q(s,a,\\omega) \\in \\mathbb{R}^m$ ，输出m维向量

提出广义贝尔曼最优算子（Generalized Bellman Operator）：
$(\\mathcal{T} Q)(s,a,\\omega) := \\mathbf{r}(s,a) + \\gamma \\mathbb{E}_{s\'\\sim P} [(\\mathcal{H} Q)(s\',\\omega)]$
其中 $\\mathcal{H}$ 为包络最优滤波器：
$(\\mathcal{H} Q)(s\',\\omega) = \\arg\\max_{a\', \\omega\'} \\omega^\\top Q(s\',a\',\\omega\')$

Envelope Q-Learning 关键机制：在Q更新中使用凸包络（convex envelope），利用其他偏好下探索的最优经验。具体地，定义最优算子 $T$ 为：
$Q)(s,a,\\omega) = r(s,a) + \\gamma \\mathbb{E}_{s\' \\sim P(\\cdot|s,a)} \\left[ \\arg\\sup_{a\',\\omega\'} \\omega^\\top Q(s\', a\', \\omega\') \\right]$

在动作和偏好上同时取上界（即“envelope”思想），而非仅对动作取max；
相比标量化更新（ $\\max_a \\omega_i^\\top Q$ ），此更新利用其他偏好 $\\omega\'$ 下的最优动作，加速偏好-策略对齐

理论

定理1（固定点）：最优Q函数 $Q^*$ 是算子 $T$ 的不动点；
定理2（收缩性）：算子 $T$ 是收缩映射，满足：
$TQ\') \\leq \\gamma d(Q, Q\')$
其中距离定义为：
$d(Q,Q\') = \\sup_{s,a,\\omega} |\\omega^\\top (Q(s,a,\\omega) - Q\'(s,a,\\omega))|$
这一距离衡量策略在偏好 $\\omega$ 下的效用差异，忽略非最优方向的分量偏差
定理3（广义Banach不动点）：迭代应用 $T$ 必收敛到 $Q^*$ 。

模型训练

损失函数：
- 主损失（MSE）：最小化Q向量与目标向量的L2误差
  $\\mathcal{L}_A = \\mathbb{E}_{s,a,\\omega} \\left[ \\| y - Q(s,a,\\omega;\\theta) \\|_2^2 \\right], \\quad y = r + \\gamma \\arg\\sup_{a\',\\omega\'} \\omega^\\top Q(s\',a\',\\omega\';\\theta)$
- 辅助损失（偏好对齐）：最小化偏好加权后的效用误差
  $\\mathcal{L}_B = \\mathbb{E}_{s,a,\\omega} \\left[ |\\omega^\\top y - \\omega^\\top Q(s,a,\\omega;\\theta)| \\right]$
- Homotopy优化：动态混合损失权重，逐步将权重从 $\\mathcal{L}_A$ 转移到 $\\mathcal{L}_B$ ，解决非光滑优化问题；
Hindsight Experience Replay（HER）：
- 每条经验复用多个偏好 $\\omega$ ，提升样本效率。

偏好适应（Policy Adaptation）

给定新偏好 $\\omega$ ，即时输出最优策略。或通过少量交互自动识别未知偏好。

已知偏好：直接输入 $\\omega$ 到策略网络；
未知偏好：假设偏好服从高斯分布 $ω\\mathcal{D}_\\omega$ ，通过策略梯度+随机搜索优化（公式如下），仅需少量episode即可收敛
$\\max_{\\mu_1,\\dots,\\mu_m} \\mathbb{E}_{\\omega \\sim \\mathcal{D}_\\omega} \\mathbb{E}_{\\tau \\sim \\pi(\\omega)} \\left[ \\sum_t \\gamma^t r_t \\right]$

实验

文章在四个实验场景中系统性地验证了所提出的Envelope MORL算法的有效性，这些场景覆盖了从低维网格世界到高维视觉输入、从合成任务到真实对话系统的广泛范围，旨在全面评估算法在学习和适应阶段的能力。

Deep Sea Treasure（DST）

智能体控制一艘潜艇在10×11的网格世界中寻找宝藏，需要在时间成本与宝藏价值之间做出权衡。
该场景的帕累托前沿（Pareto Frontier）被设计为凸集，因此其凸覆盖集（CCS）恰好等于帕累托前沿本身。
实验结果显示，Envelope算法在此任务中几乎完美地覆盖了所有最优解，覆盖率（CR）达到0.994，适应误差（AE）低至0.152，显著优于传统方法，表明其在低维、明确结构问题中的优越性和稳定性。

Fruit Tree Navigation（FTN）

这是一个更具挑战性的合成环境，模拟一棵深度为d的完全二叉树，每个叶子节点对应一个六维营养向量（蛋白质、碳水、脂肪、维生素、矿物质、水分），智能体需从根节点出发，选择左或右子树路径，最终到达某个叶子节点以最大化特定偏好下的营养效用。
由于每个叶子节点在某种偏好下都是最优解，该任务的CCS包含所有叶子节点，其规模随树深度指数增长（d=5时有32个解，d=7时达128个）。
实验表明，随着树深度增加，传统方法性能迅速下降，而Envelope算法在d=5时CR接近1，在d=7时仍保持较高的覆盖率和适应质量，展现出良好的可扩展性。此外，通过调整每轮训练中采样的偏好数量Nω，文章进一步验证了Envelope算法在样本效率上的优势：在相同的训练资源下，其CR和AQ均优于Scalarized方法，且方差更小，说明其对历史经验的利用更为高效。

任务导向的对话策略学习

该任务基于PyDial框架构建了一个餐厅预订系统，智能体需与用户交互以完成预订，同时平衡对话成功率和对话简洁性（以轮数衡量）。
在此场景中，奖励被设计为二维向量，分别对应成功率和简洁性。由于用户偏好未知，训练阶段需通过采样不同权重组合来学习所有可能的策略，而测试阶段则需提供特定偏好下的最优响应。
实验结果显示，Envelope算法在平均用户效用（UT）和适应质量（AQ）上均显著优于基线方法，尤其在用户更看重成功率时（权重>0.5），其表现尤为突出。此外，文章还展示了算法在仅15轮对话后即可准确推断出用户隐藏偏好的能力，表明其在真实交互场景中的实用性。

视觉输入的Super Mario游戏环境

该任务通过修改OpenAI Gym的Mario环境引入五维奖励：水平位移、时间惩罚、死亡惩罚、金币收集和敌人击败。智能体需在32k训练episode内学习一个统一的策略网络，随后在500个随机偏好下测试其表现，并在100个episode内推断隐藏偏好。
实验结果表明，Envelope算法在所有测试偏好下的平均效用均优于Scalarized方法，尤其在强调快速通关（x-pos+time）或金币收集（coin+enemy）的偏好下，性能提升达2倍以上。值得注意的是，算法在仅100个episode内即可较为准确地推断出任务的真实偏好，例如在某个仅奖励金币的任务中，推断出的偏好权重在coin维度上高达0.696，与真实偏好高度一致。这些结果共同验证了Envelope MORL算法在复杂视觉环境中的泛化能力和实际部署潜力。

【论文阅读笔记】多目标优化 + 强化学习（RL）：Envelope Q-Learning，在Q更新中使用凸包络提升多目标优化效率_多目标优化帕累托最优强化学习

文章目录

研究背景

问题建模：MOMDP with Linear Preferences

Envelope Q-Learning

广义Bellman最优算子

理论

模型训练

偏好适应（Policy Adaptation）

实验

Deep Sea Treasure（DST）

Fruit Tree Navigation（FTN）

任务导向的对话策略学习

视觉输入的Super Mario游戏环境

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

【论文阅读笔记】多目标优化 + 强化学习（RL）：Envelope Q-Learning，在Q更新中使用凸包络提升多目标优化效率_多目标优化帕累托最优强化学习

文章目录

研究背景

问题建模：MOMDP with Linear Preferences

Envelope Q-Learning

广义Bellman最优算子

理论

模型训练

偏好适应（Policy Adaptation）

实验

Deep Sea Treasure（DST）

Fruit Tree Navigation（FTN）

任务导向的对话策略学习

视觉输入的Super Mario游戏环境

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签