> 技术文档 > 【论文阅读笔记】多目标优化 + 强化学习(RL):Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率_多目标优化帕累托最优强化学习

【论文阅读笔记】多目标优化 + 强化学习(RL):Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率_多目标优化帕累托最优强化学习


A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation【NeurIPS 2019】

文章目录

    • 研究背景
    • 问题建模:MOMDP with Linear Preferences
    • Envelope Q-Learning
      • 广义Bellman最优算子
      • 理论
      • 模型训练
      • 偏好适应(Policy Adaptation)
    • 实验
      • Deep Sea Treasure(DST)
      • Fruit Tree Navigation(FTN)
      • 任务导向的对话策略学习
      • 视觉输入的Super Mario游戏环境

本文提出Envelope Q-Learning,通过广义Bellman算子统一学习所有偏好下的最优策略,解决了传统MORL方法的泛化差、样本效率低、不可扩展等问题。本文理论证明了算法的收敛性,实验验证其在多个复杂任务中的有效性,并展示了算法的 few-shot 偏好适应能力。

本文贡献如下

  1. 提出“Envelope Q-Learning”算法

    • 引入广义Bellman最优算子,将偏好作为输入,学习一个统一的Q函数;
    • 利用凸包(convex envelope)思想,避免传统方法对每个偏好单独训练策略的不可扩展性问题;
    • 提供理论收敛性证明:证明所提算子是收缩映射,保证收敛。
  2. 设计偏好适应机制

    • 在测试阶段,仅需少量样本即可推断出隐藏偏好(通过策略梯度+随机搜索);
    • 支持few-shot policy adaptation,无需重新训练策略网络。
  3. 实验验证

    • 在4个不同领域(Deep Sea Treasure、Fruit Tree Navigation、对话系统、Super Mario)上验证;
    • 显著优于现有基线(如MOFQI、CN+OLS、Scalarized Q-Learning);
    • 展示在仅15~100个episode内即可准确推断隐藏偏好。

研究背景

多目标强化学习(Multi-Objective Reinforcement Learning,MORL)旨在同时优化多个可能相互冲突的目标,而不是传统强化学习中的单一标量奖励。例如:

  • 对话系统:用户可能偏好简洁对话(brevity)或高成功率(success),两者权重未知;
  • 游戏智能体:在《Super Mario》中,可能需权衡“通关速度”、“收集金币”、“击败敌人”等多个目标;
  • 导航系统:路径选择需权衡“时间最短”与“能耗最低”。

传统RL将多个目标加权求和为一个标量奖励,但这种方法存在两个主要缺陷:

  1. 权重设计困难:需要人工设定目标权重,且难以适应不同任务或用户偏好;
  2. 泛化能力差:训练好的策略无法适应新任务中不同的偏好组合。

而现有的帕累托前沿方法需维护大量策略,计算开销大且难以扩展至高维目标空间

因此,MORL的核心挑战在于:如何学习一个统一的策略模型,使其能在未知或变化的线性偏好下,快速适应并输出最优策略。即,如何用单一策略网络覆盖所有偏好( ω \\omega ω),支持:

  1. 零样本适应:给定新偏好 ω \\omega ω,即时输出最优策略。
  2. 偏好推断:通过少量交互自动识别未知偏好。

问题建模:MOMDP with Linear Preferences

  • 环境建模为多目标马尔可夫决策过程(MOMDP)

    • 状态空间 S \\mathcal{S} S、动作空间 A \\mathcal{A} A、转移概率 P ( s ′ ∣ s , a ) P(s\'|s,a) P(ss,a)
    • 奖励为向量 r ( s , a ) ∈ R m r(s,a) \\in \\mathbb{R}^m r(s,a)Rm
    • 偏好为线性权重向量 ω ∈ R m \\omega \\in \\mathbb{R}^m ωRm,满足 ∥ ω ∥ 1 = 1 \\|\\omega\\|_1 = 1 ω1=1
    • 标量效用为 f ω ( r ) = ω ⊤ r f_\\omega(r) = \\omega^\\top r fω(r)=ωr
  • 目标:学习一个策略 π ( a ∣ s , ω ) \\pi(a|s, \\omega) π(as,ω),使得对于任意 ω \\omega ω,策略最大化期望回报:
    π ∗ ( ω ) = arg ⁡ max ⁡ π E π [ ∑ t γ t ω ⊤ r ( s t , a t ) ] \\pi^*(\\omega) = \\arg\\max_\\pi \\mathbb{E}_\\pi \\left[ \\sum_t \\gamma^t \\omega^\\top r(s_t, a_t) \\right] π(ω)=argπmaxEπ[tγtωr(st,at)]

Envelope Q-Learning

广义Bellman最优算子

传统单目标Bellman算子:
( T Q ) ( s , a ) = r ( s , a ) + γ max ⁡ a ′Q ( s ′ , a ′ ) (TQ)(s,a) = r(s,a) + \\gamma \\max_{a\'} Q(s\', a\') (TQ)(s,a)=r(s,a)+γamaxQ(s,a)
本文将以上算子扩展到多目标问题,定义多目标Q函数 Q(s,a,ω)∈ R m Q(s,a,\\omega) \\in \\mathbb{R}^m Q(s,a,ω)Rm,输出m维向量

提出广义贝尔曼最优算子(Generalized Bellman Operator):
( T Q ) ( s , a , ω ) : = r ( s , a ) + γ E s ′ ∼ P[ ( H Q ) ( s ′ , ω ) ] (\\mathcal{T} Q)(s,a,\\omega) := \\mathbf{r}(s,a) + \\gamma \\mathbb{E}_{s\'\\sim P} [(\\mathcal{H} Q)(s\',\\omega)] (TQ)(s,a,ω):=r(s,a)+γEsP[(HQ)(s,ω)]
其中 H \\mathcal{H} H包络最优滤波器
( H Q ) ( s ′ , ω ) = arg ⁡ max ⁡ a ′ , ω ′ ω ⊤ Q ( s ′ , a ′ , ω ′ ) (\\mathcal{H} Q)(s\',\\omega) = \\arg\\max_{a\', \\omega\'} \\omega^\\top Q(s\',a\',\\omega\') (HQ)(s,ω)=arga,ωmaxωQ(s,a,ω)

Envelope Q-Learning 关键机制:在Q更新中使用凸包络(convex envelope),利用其他偏好下探索的最优经验。具体地,定义最优算子 T T T 为:
( T Q ) ( s , a , ω ) = r ( s , a ) + γ E s ′ ∼ P ( ⋅ ∣ s , a ) [ arg ⁡ sup ⁡ a ′ , ω ′ ω ⊤ Q ( s ′ , a ′ , ω ′ ) ] (T Q)(s,a,\\omega) = r(s,a) + \\gamma \\mathbb{E}_{s\' \\sim P(\\cdot|s,a)} \\left[ \\arg\\sup_{a\',\\omega\'} \\omega^\\top Q(s\', a\', \\omega\') \\right] (TQ)(s,a,ω)=r(s,a)+γEsP(s,a)[arga,ωsupωQ(s,a,ω)]

  • 在动作和偏好上同时取上界(即“envelope”思想),而非仅对动作取max;
  • 相比标量化更新( max ⁡ aω i ⊤ Q \\max_a \\omega_i^\\top Q maxaωiQ),此更新利用其他偏好 ω ′ \\omega\' ω 下的最优动作,加速偏好-策略对齐

理论

  • 定理1(固定点):最优Q函数 Q ∗Q^* Q 是算子 T T T 的不动点;

  • 定理2(收缩性):算子 T T T 是收缩映射,满足:
    d ( T Q , T Q ′ ) ≤ γ d ( Q , Q ′ ) d(TQ, TQ\') \\leq \\gamma d(Q, Q\') d(TQ,TQ)γd(Q,Q)
    其中距离定义为:
    d ( Q , Q ′ ) = sup ⁡ s , a , ω ∣ ω ⊤ ( Q ( s , a , ω ) − Q ′ ( s , a , ω ) ) ∣ d(Q,Q\') = \\sup_{s,a,\\omega} |\\omega^\\top (Q(s,a,\\omega) - Q\'(s,a,\\omega))| d(Q,Q)=s,a,ωsupω(Q(s,a,ω)Q(s,a,ω))
    这一距离衡量策略在偏好 ω \\omega ω 下的效用差异,忽略非最优方向的分量偏差

  • 定理3(广义Banach不动点):迭代应用 T T T 必收敛到 Q ∗Q^* Q

模型训练

  • 损失函数

    • 主损失(MSE):最小化Q向量与目标向量的L2误差
      L A = E s , a , ω [ ∥ y − Q ( s , a , ω ; θ ) ∥ 2 2 ] , y = r + γ arg ⁡sup ⁡ a ′ , ω ′ ω ⊤ Q ( s ′ , a ′ , ω ′ ; θ ) \\mathcal{L}_A = \\mathbb{E}_{s,a,\\omega} \\left[ \\| y - Q(s,a,\\omega;\\theta) \\|_2^2 \\right], \\quad y = r + \\gamma \\arg\\sup_{a\',\\omega\'} \\omega^\\top Q(s\',a\',\\omega\';\\theta) LA=Es,a,ω[yQ(s,a,ω;θ)22],y=r+γarga,ωsupωQ(s,a,ω;θ)

    • 辅助损失(偏好对齐):最小化偏好加权后的效用误差
      L B = E s , a , ω [ ∣ ω ⊤ y − ω ⊤ Q ( s , a , ω ; θ ) ∣ ] \\mathcal{L}_B = \\mathbb{E}_{s,a,\\omega} \\left[ |\\omega^\\top y - \\omega^\\top Q(s,a,\\omega;\\theta)| \\right] LB=Es,a,ω[ωyωQ(s,a,ω;θ)]

    • Homotopy优化:动态混合损失权重,逐步将权重从 L A \\mathcal{L}_A LA 转移到 L B \\mathcal{L}_B LB,解决非光滑优化问题;

  • Hindsight Experience Replay(HER)

    • 每条经验复用多个偏好 ω \\omega ω,提升样本效率。

偏好适应(Policy Adaptation)

给定新偏好 ω \\omega ω,即时输出最优策略。或通过少量交互自动识别未知偏好。

  • 已知偏好:直接输入 ω \\omega ω 到策略网络;

  • 未知偏好:假设偏好服从高斯分布 D ω\\mathcal{D}_\\omega Dω,通过策略梯度+随机搜索优化(公式如下),仅需少量episode即可收敛
    max ⁡ μ 1 , … , μ m E ω ∼ D ω E τ ∼ π ( ω )[ ∑ t γ t r t ] \\max_{\\mu_1,\\dots,\\mu_m} \\mathbb{E}_{\\omega \\sim \\mathcal{D}_\\omega} \\mathbb{E}_{\\tau \\sim \\pi(\\omega)} \\left[ \\sum_t \\gamma^t r_t \\right] μ1,,μmmaxEωDωEτπ(ω)[tγtrt]

实验

文章在四个实验场景中系统性地验证了所提出的Envelope MORL算法的有效性,这些场景覆盖了从低维网格世界到高维视觉输入、从合成任务到真实对话系统的广泛范围,旨在全面评估算法在学习和适应阶段的能力。

Deep Sea Treasure(DST)

  • 智能体控制一艘潜艇在10×11的网格世界中寻找宝藏,需要在时间成本与宝藏价值之间做出权衡。
  • 该场景的帕累托前沿(Pareto Frontier)被设计为凸集,因此其凸覆盖集(CCS)恰好等于帕累托前沿本身。
  • 实验结果显示,Envelope算法在此任务中几乎完美地覆盖了所有最优解,覆盖率(CR)达到0.994,适应误差(AE)低至0.152,显著优于传统方法,表明其在低维、明确结构问题中的优越性和稳定性。

Fruit Tree Navigation(FTN)

  • 这是一个更具挑战性的合成环境,模拟一棵深度为d的完全二叉树,每个叶子节点对应一个六维营养向量(蛋白质、碳水、脂肪、维生素、矿物质、水分),智能体需从根节点出发,选择左或右子树路径,最终到达某个叶子节点以最大化特定偏好下的营养效用。
  • 由于每个叶子节点在某种偏好下都是最优解,该任务的CCS包含所有叶子节点,其规模随树深度指数增长(d=5时有32个解,d=7时达128个)。
  • 实验表明,随着树深度增加,传统方法性能迅速下降,而Envelope算法在d=5时CR接近1,在d=7时仍保持较高的覆盖率和适应质量,展现出良好的可扩展性。此外,通过调整每轮训练中采样的偏好数量Nω,文章进一步验证了Envelope算法在样本效率上的优势:在相同的训练资源下,其CR和AQ均优于Scalarized方法,且方差更小,说明其对历史经验的利用更为高效。

任务导向的对话策略学习

  • 该任务基于PyDial框架构建了一个餐厅预订系统,智能体需与用户交互以完成预订,同时平衡对话成功率和对话简洁性(以轮数衡量)。
  • 在此场景中,奖励被设计为二维向量,分别对应成功率和简洁性。由于用户偏好未知,训练阶段需通过采样不同权重组合来学习所有可能的策略,而测试阶段则需提供特定偏好下的最优响应。
  • 实验结果显示,Envelope算法在平均用户效用(UT)和适应质量(AQ)上均显著优于基线方法,尤其在用户更看重成功率时(权重>0.5),其表现尤为突出。此外,文章还展示了算法在仅15轮对话后即可准确推断出用户隐藏偏好的能力,表明其在真实交互场景中的实用性。

视觉输入的Super Mario游戏环境

  • 该任务通过修改OpenAI Gym的Mario环境引入五维奖励:水平位移、时间惩罚、死亡惩罚、金币收集和敌人击败。智能体需在32k训练episode内学习一个统一的策略网络,随后在500个随机偏好下测试其表现,并在100个episode内推断隐藏偏好。
  • 实验结果表明,Envelope算法在所有测试偏好下的平均效用均优于Scalarized方法,尤其在强调快速通关(x-pos+time)或金币收集(coin+enemy)的偏好下,性能提升达2倍以上。值得注意的是,算法在仅100个episode内即可较为准确地推断出任务的真实偏好,例如在某个仅奖励金币的任务中,推断出的偏好权重在coin维度上高达0.696,与真实偏好高度一致。这些结果共同验证了Envelope MORL算法在复杂视觉环境中的泛化能力和实际部署潜力。