【论文阅读笔记】多目标优化 + 强化学习(RL):Envelope Q-Learning,在Q更新中使用凸包络提升多目标优化效率_多目标优化帕累托最优强化学习
A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation【NeurIPS 2019】
文章目录
本文提出Envelope Q-Learning,通过广义Bellman算子统一学习所有偏好下的最优策略,解决了传统MORL方法的泛化差、样本效率低、不可扩展等问题。本文理论证明了算法的收敛性,实验验证其在多个复杂任务中的有效性,并展示了算法的 few-shot 偏好适应能力。
本文贡献如下
-
提出“Envelope Q-Learning”算法:
- 引入广义Bellman最优算子,将偏好作为输入,学习一个统一的Q函数;
- 利用凸包(convex envelope)思想,避免传统方法对每个偏好单独训练策略的不可扩展性问题;
- 提供理论收敛性证明:证明所提算子是收缩映射,保证收敛。
-
设计偏好适应机制:
- 在测试阶段,仅需少量样本即可推断出隐藏偏好(通过策略梯度+随机搜索);
- 支持few-shot policy adaptation,无需重新训练策略网络。
-
实验验证:
- 在4个不同领域(Deep Sea Treasure、Fruit Tree Navigation、对话系统、Super Mario)上验证;
- 显著优于现有基线(如MOFQI、CN+OLS、Scalarized Q-Learning);
- 展示在仅15~100个episode内即可准确推断隐藏偏好。
研究背景
多目标强化学习(Multi-Objective Reinforcement Learning,MORL)旨在同时优化多个可能相互冲突的目标,而不是传统强化学习中的单一标量奖励。例如:
- 对话系统:用户可能偏好简洁对话(brevity)或高成功率(success),两者权重未知;
- 游戏智能体:在《Super Mario》中,可能需权衡“通关速度”、“收集金币”、“击败敌人”等多个目标;
- 导航系统:路径选择需权衡“时间最短”与“能耗最低”。
传统RL将多个目标加权求和为一个标量奖励,但这种方法存在两个主要缺陷:
- 权重设计困难:需要人工设定目标权重,且难以适应不同任务或用户偏好;
- 泛化能力差:训练好的策略无法适应新任务中不同的偏好组合。
而现有的帕累托前沿方法需维护大量策略,计算开销大且难以扩展至高维目标空间
因此,MORL的核心挑战在于:如何学习一个统一的策略模型,使其能在未知或变化的线性偏好下,快速适应并输出最优策略。即,如何用单一策略网络覆盖所有偏好( ω \\omega ω),支持:
- 零样本适应:给定新偏好 ω \\omega ω,即时输出最优策略。
- 偏好推断:通过少量交互自动识别未知偏好。
问题建模:MOMDP with Linear Preferences
-
环境建模为多目标马尔可夫决策过程(MOMDP):
- 状态空间 S \\mathcal{S} S、动作空间 A \\mathcal{A} A、转移概率 P ( s ′ ∣ s , a ) P(s\'|s,a) P(s′∣s,a);
- 奖励为向量 r ( s , a ) ∈ R m r(s,a) \\in \\mathbb{R}^m r(s,a)∈Rm;
- 偏好为线性权重向量 ω ∈ R m \\omega \\in \\mathbb{R}^m ω∈Rm,满足 ∥ ω ∥ 1 = 1 \\|\\omega\\|_1 = 1 ∥ω∥1=1;
- 标量效用为 f ω ( r ) = ω ⊤ r f_\\omega(r) = \\omega^\\top r fω(r)=ω⊤r。
-
目标:学习一个策略 π ( a ∣ s , ω ) \\pi(a|s, \\omega) π(a∣s,ω),使得对于任意 ω \\omega ω,策略最大化期望回报:
π ∗ ( ω ) = arg max π E π [ ∑ t γ t ω ⊤ r ( s t , a t ) ] \\pi^*(\\omega) = \\arg\\max_\\pi \\mathbb{E}_\\pi \\left[ \\sum_t \\gamma^t \\omega^\\top r(s_t, a_t) \\right] π∗(ω)=argπmaxEπ[t∑γtω⊤r(st,at)]
Envelope Q-Learning
广义Bellman最优算子
传统单目标Bellman算子:
( T Q ) ( s , a ) = r ( s , a ) + γ max a ′Q ( s ′ , a ′ ) (TQ)(s,a) = r(s,a) + \\gamma \\max_{a\'} Q(s\', a\') (TQ)(s,a)=r(s,a)+γa′maxQ(s′,a′)
本文将以上算子扩展到多目标问题,定义多目标Q函数 Q(s,a,ω)∈ R m Q(s,a,\\omega) \\in \\mathbb{R}^m Q(s,a,ω)∈Rm,输出m维向量
提出广义贝尔曼最优算子(Generalized Bellman Operator):
( T Q ) ( s , a , ω ) : = r ( s , a ) + γ E s ′ ∼ P[ ( H Q ) ( s ′ , ω ) ] (\\mathcal{T} Q)(s,a,\\omega) := \\mathbf{r}(s,a) + \\gamma \\mathbb{E}_{s\'\\sim P} [(\\mathcal{H} Q)(s\',\\omega)] (TQ)(s,a,ω):=r(s,a)+γEs′∼P[(HQ)(s′,ω)]
其中 H \\mathcal{H} H 为包络最优滤波器:
( H Q ) ( s ′ , ω ) = arg max a ′ , ω ′ ω ⊤ Q ( s ′ , a ′ , ω ′ ) (\\mathcal{H} Q)(s\',\\omega) = \\arg\\max_{a\', \\omega\'} \\omega^\\top Q(s\',a\',\\omega\') (HQ)(s′,ω)=arga′,ω′maxω⊤Q(s′,a′,ω′)
Envelope Q-Learning 关键机制:在Q更新中使用凸包络(convex envelope),利用其他偏好下探索的最优经验。具体地,定义最优算子 T T T 为:
( T Q ) ( s , a , ω ) = r ( s , a ) + γ E s ′ ∼ P ( ⋅ ∣ s , a ) [ arg sup a ′ , ω ′ ω ⊤ Q ( s ′ , a ′ , ω ′ ) ] (T Q)(s,a,\\omega) = r(s,a) + \\gamma \\mathbb{E}_{s\' \\sim P(\\cdot|s,a)} \\left[ \\arg\\sup_{a\',\\omega\'} \\omega^\\top Q(s\', a\', \\omega\') \\right] (TQ)(s,a,ω)=r(s,a)+γEs′∼P(⋅∣s,a)[arga′,ω′supω⊤Q(s′,a′,ω′)]
- 在动作和偏好上同时取上界(即“envelope”思想),而非仅对动作取max;
- 相比标量化更新( max aω i ⊤ Q \\max_a \\omega_i^\\top Q maxaωi⊤Q),此更新利用其他偏好 ω ′ \\omega\' ω′ 下的最优动作,加速偏好-策略对齐
理论
-
定理1(固定点):最优Q函数 Q ∗Q^* Q∗ 是算子 T T T 的不动点;
-
定理2(收缩性):算子 T T T 是收缩映射,满足:
d ( T Q , T Q ′ ) ≤ γ d ( Q , Q ′ ) d(TQ, TQ\') \\leq \\gamma d(Q, Q\') d(TQ,TQ′)≤γd(Q,Q′)
其中距离定义为:
d ( Q , Q ′ ) = sup s , a , ω ∣ ω ⊤ ( Q ( s , a , ω ) − Q ′ ( s , a , ω ) ) ∣ d(Q,Q\') = \\sup_{s,a,\\omega} |\\omega^\\top (Q(s,a,\\omega) - Q\'(s,a,\\omega))| d(Q,Q′)=s,a,ωsup∣ω⊤(Q(s,a,ω)−Q′(s,a,ω))∣
这一距离衡量策略在偏好 ω \\omega ω 下的效用差异,忽略非最优方向的分量偏差 -
定理3(广义Banach不动点):迭代应用 T T T 必收敛到 Q ∗Q^* Q∗。
模型训练
-
损失函数:
-
主损失(MSE):最小化Q向量与目标向量的L2误差
L A = E s , a , ω [ ∥ y − Q ( s , a , ω ; θ ) ∥ 2 2 ] , y = r + γ arg sup a ′ , ω ′ ω ⊤ Q ( s ′ , a ′ , ω ′ ; θ ) \\mathcal{L}_A = \\mathbb{E}_{s,a,\\omega} \\left[ \\| y - Q(s,a,\\omega;\\theta) \\|_2^2 \\right], \\quad y = r + \\gamma \\arg\\sup_{a\',\\omega\'} \\omega^\\top Q(s\',a\',\\omega\';\\theta) LA=Es,a,ω[∥y−Q(s,a,ω;θ)∥22],y=r+γarga′,ω′supω⊤Q(s′,a′,ω′;θ) -
辅助损失(偏好对齐):最小化偏好加权后的效用误差
L B = E s , a , ω [ ∣ ω ⊤ y − ω ⊤ Q ( s , a , ω ; θ ) ∣ ] \\mathcal{L}_B = \\mathbb{E}_{s,a,\\omega} \\left[ |\\omega^\\top y - \\omega^\\top Q(s,a,\\omega;\\theta)| \\right] LB=Es,a,ω[∣ω⊤y−ω⊤Q(s,a,ω;θ)∣] -
Homotopy优化:动态混合损失权重,逐步将权重从 L A \\mathcal{L}_A LA 转移到 L B \\mathcal{L}_B LB,解决非光滑优化问题;
-
-
Hindsight Experience Replay(HER):
- 每条经验复用多个偏好 ω \\omega ω,提升样本效率。
偏好适应(Policy Adaptation)
给定新偏好 ω \\omega ω,即时输出最优策略。或通过少量交互自动识别未知偏好。
-
已知偏好:直接输入 ω \\omega ω 到策略网络;
-
未知偏好:假设偏好服从高斯分布 D ω\\mathcal{D}_\\omega Dω,通过策略梯度+随机搜索优化(公式如下),仅需少量episode即可收敛
max μ 1 , … , μ m E ω ∼ D ω E τ ∼ π ( ω )[ ∑ t γ t r t ] \\max_{\\mu_1,\\dots,\\mu_m} \\mathbb{E}_{\\omega \\sim \\mathcal{D}_\\omega} \\mathbb{E}_{\\tau \\sim \\pi(\\omega)} \\left[ \\sum_t \\gamma^t r_t \\right] μ1,…,μmmaxEω∼DωEτ∼π(ω)[t∑γtrt]
实验
文章在四个实验场景中系统性地验证了所提出的Envelope MORL算法的有效性,这些场景覆盖了从低维网格世界到高维视觉输入、从合成任务到真实对话系统的广泛范围,旨在全面评估算法在学习和适应阶段的能力。
Deep Sea Treasure(DST)
- 智能体控制一艘潜艇在10×11的网格世界中寻找宝藏,需要在时间成本与宝藏价值之间做出权衡。
- 该场景的帕累托前沿(Pareto Frontier)被设计为凸集,因此其凸覆盖集(CCS)恰好等于帕累托前沿本身。
- 实验结果显示,Envelope算法在此任务中几乎完美地覆盖了所有最优解,覆盖率(CR)达到0.994,适应误差(AE)低至0.152,显著优于传统方法,表明其在低维、明确结构问题中的优越性和稳定性。
Fruit Tree Navigation(FTN)
- 这是一个更具挑战性的合成环境,模拟一棵深度为d的完全二叉树,每个叶子节点对应一个六维营养向量(蛋白质、碳水、脂肪、维生素、矿物质、水分),智能体需从根节点出发,选择左或右子树路径,最终到达某个叶子节点以最大化特定偏好下的营养效用。
- 由于每个叶子节点在某种偏好下都是最优解,该任务的CCS包含所有叶子节点,其规模随树深度指数增长(d=5时有32个解,d=7时达128个)。
- 实验表明,随着树深度增加,传统方法性能迅速下降,而Envelope算法在d=5时CR接近1,在d=7时仍保持较高的覆盖率和适应质量,展现出良好的可扩展性。此外,通过调整每轮训练中采样的偏好数量Nω,文章进一步验证了Envelope算法在样本效率上的优势:在相同的训练资源下,其CR和AQ均优于Scalarized方法,且方差更小,说明其对历史经验的利用更为高效。
任务导向的对话策略学习
- 该任务基于PyDial框架构建了一个餐厅预订系统,智能体需与用户交互以完成预订,同时平衡对话成功率和对话简洁性(以轮数衡量)。
- 在此场景中,奖励被设计为二维向量,分别对应成功率和简洁性。由于用户偏好未知,训练阶段需通过采样不同权重组合来学习所有可能的策略,而测试阶段则需提供特定偏好下的最优响应。
- 实验结果显示,Envelope算法在平均用户效用(UT)和适应质量(AQ)上均显著优于基线方法,尤其在用户更看重成功率时(权重>0.5),其表现尤为突出。此外,文章还展示了算法在仅15轮对话后即可准确推断出用户隐藏偏好的能力,表明其在真实交互场景中的实用性。
视觉输入的Super Mario游戏环境
- 该任务通过修改OpenAI Gym的Mario环境引入五维奖励:水平位移、时间惩罚、死亡惩罚、金币收集和敌人击败。智能体需在32k训练episode内学习一个统一的策略网络,随后在500个随机偏好下测试其表现,并在100个episode内推断隐藏偏好。
- 实验结果表明,Envelope算法在所有测试偏好下的平均效用均优于Scalarized方法,尤其在强调快速通关(x-pos+time)或金币收集(coin+enemy)的偏好下,性能提升达2倍以上。值得注意的是,算法在仅100个episode内即可较为准确地推断出任务的真实偏好,例如在某个仅奖励金币的任务中,推断出的偏好权重在coin维度上高达0.696,与真实偏好高度一致。这些结果共同验证了Envelope MORL算法在复杂视觉环境中的泛化能力和实际部署潜力。