论文笔记12：强化学习训练大语言模型结合搜索引擎_如何实现语言大模型搜索

技术文档

文章目录

前言

一、简介

1.1 将LLM与搜索引擎集成的方法通常分为两类：

1.2 RL增强LLM推理能力

二、相关内容

2.1 大型语言模型与检索

2.2 大型语言模型与强化学习

2.3 传统方法的局限性

三、Search-R1

3.1 使用搜索引擎进行强化学习

3.1.1 检索令牌的损失掩码

3.1.2 搜索引擎与PPO

3.1.3 搜索引擎与GRPO

3.2 多轮搜索引擎调用生成

3.3 训练模板

3.4 奖励建模

3.5 核心创新

3.5.1 框架设计

3.5.2 通用RL算法兼容性

四、分析

4.1 PPO vs. GRPO

4.2 Base vs. Instruct LLMs

4.3 响应长度和有效搜索研究

4.4 检索令牌掩码损失

总结

核心概念解析

1. 强化学习（RL）在LLM中的应用

2. 检索Token掩码（Retrieved Token Masking）

3. 结果奖励（Outcome Reward）

前言

高效获取外部知识和最新信息对于LLM中的有效推理和文本生成至关重要。促使具有推理能力的高级 LLM 在推理过程中使用搜索引擎通常并非理想之选，因为 LLM 可能并不完全具备与搜索引擎进行最佳交互的能力。本文介绍了 SEARCH-R1，它是强化学习 (RL) 的一种扩展，用于推理框架，其中 LLM 学习在逐步推理过程中通过实时检索自主生成搜索查询。SEARCH-R1 通过多轮搜索交互优化 LLM 的推理轨迹，利用检索到的标记掩码进行稳定的 RL 训练，并采用简单的基于结果的奖励函数。本文进一步对检索增强推理中的强化学习优化方法、LLM 选择和响应长度动态提供了实证见解

一、简介

LLM在自然语言理解和生成方面展现出卓越的能力。尽管如此，LLM 在执行复杂推理和从外部来源检索最新信息时仍常常面临挑战。克服这些局限性需要整合高级推理能力以及与搜索引擎有效交互的能力，以便最大限度地利用外部最新信息

1.1 将LLM与搜索引擎集成的方法通常分为两类：

(1) 检索增强生成 (RAG) 和 (2) 将搜索引擎视为工具

RAG 模型通常根据 LLM 的输入作为查询检索段落，并将其合并到 LLM 的上下文中进行生成。这使得 LLM 能够在回答问题时利用外部知识。尽管 LLM 进行多轮、多查询检索，但这种方法并非最优，因为 LLM 并未针对如何在训练过程中学习如何与搜索引擎有效交互进行优化。或者，可以提示或训练 LLM 使用工具作为其推理过程的一部分。然而，基于提示的方法通常难以泛化，因为某些任务可能在 LLM 预训练期间没有遇到过。另一方面，基于训练的方法虽然适应性更强，但由于依赖于大规模、高质量的带注释轨迹，并且搜索操作固有的不可微性，因此难以有效扩展，这使得基于端到端梯度下降的优化方法不适用

1.2 RL增强LLM推理能力

值得注意的是，OpenAI-o1和 DeepSeek-R1等模型已经利用强化学习技术和 GRPO 通过从经验和反馈中学习来提高逻辑推理和问题解决能力。借助强化学习，即使仅基于结果奖励进行训练，模型也能学习复杂的推理能力，包括自我验证和自我纠正

将强化学习应用于搜索和推理场景面临三大关键挑战：

(1) 强化学习框架和稳定性——目前尚不清楚如何有效地将搜索引擎集成到 LLM 的强化学习方法中，同时确保稳定的优化，尤其是在结合检索到的上下文时

(2) 多轮交错推理和搜索——理想情况下，LLM 应该能够进行迭代推理和搜索引擎调用，并根据问题的复杂性动态调整检索策略

(3) 奖励设计——为搜索和推理任务设计有效的奖励函数仍然是一项根本性挑战，因为尚不清楚简单的基于结果的奖励是否足以引导 LLM 学习有意义且一致的搜索行为

为了应对上述挑战，引入了一个新颖的强化学习框架 SEARCH-R1，它使 LLM 能够以交错的方式与其自身的推理进行交互。具体而言，SEARCH-R1 引入了以下关键创新：

(1) 我们将搜索引擎建模为环境的一部分，从而能够采样轨迹序列，将 LLM 令牌生成与搜索引擎检索交错进行。SEARCH-R1 与各种强化学习算法兼容，包括 PPO 和 GRPO，并且我们应用检索到的令牌掩码来确保稳定的优化

(2) SEARCH-R1 支持多轮检索和推理，当和令牌明确触发时，会调用搜索调用。检索到的内容包含在和令牌中，而 LLM 推理步骤则包含在和令牌中。最终答案采用和标记格式，从而实现结构化的迭代决策

（3）我们采用直接基于结果的奖励函数，避免了基于过程的奖励的复杂性。结果表明，这种最小化奖励设计在搜索推理场景中有效。因此，SEARCH-R1 可以被视为 DeepSeek-R1 Zero 的扩展，后者主要侧重于参数化推理，通过引入搜索增强型强化学习训练来增强检索驱动的决策能力

二、相关内容

2.1 大型语言模型与检索

尽管LLM展现出卓越的推理和编码能力，但它们往往缺乏领域特定知识，并且容易产生幻觉。为了弥补这些局限性，搜索引擎被广泛集成以提供外部信息。将搜索引擎与LLM集成的主要方式有两种： (1) 检索增强生成 (RAG)和 (2) 将搜索引擎视为工具

RAG通常遵循一轮检索和顺序生成流程，其中搜索引擎根据输入查询获取相关信息，然后将其与查询连接并输入到 LLM。然而，这可能有检索不相关信息和无法提供足够有用的上下文的挑战

另一种方法是将搜索作为工具，其中 LLM 被提示或微调以与搜索引擎交互。 IRCoT和 ReAct使用提示来引导迭代推理和搜索引擎调用，而 Toolformer利用监督微调来增强搜索能力。然而，这些方法依赖于高质量的带标签轨迹，而这些轨迹难以大规模获取。强化学习可以使 LLM 仅使用结果奖励来发展高级推理技能，但其在搜索引擎调用场景中的潜力仍未得到充分探索

2.2 大型语言模型与强化学习

RL是一种学习范式，其中代理通过与环境交互并以奖励形式接收反馈来学习做出连续决策，旨在最大化随时间推移的累积奖励通过基于人类反馈的强化学习 (RLHF)将强化学习引入到 LLM 调优中。该方法首先使用人类偏好数据训练奖励模型，然后该模型指导基于强化学习的策略 LLM 调优，通常通过PPO进行。然而，PPO 涉及多轮 LLM 优化，因此实施起来具有挑战性。为了简化基于强化学习的调优，一些直接优化方法已被提出，例如DPO和 SimPO。虽然这些方法提供了计算效率，但它们存在离线策略问题，并且无法始终如一地达到纯强化学习方法的性能。其他解决方案包括组相对策略优化，它通过根据组得分估计基线来消除对批评模型的需求；以及 RLOO ，它引入了一个简化的强化学习 (REINFORCE) 式优化框架。尽管取得了这些进展，但强化学习在 LLM 驱动的搜索引擎交互和推理中的应用仍然在很大程度上尚未得到探索

2.3 传统方法的局限性

RAG（检索增强生成）
- 单轮检索：仅根据初始查询获取文档，无法动态调整检索策略
- 检索无关性：复杂问题中首次检索可能偏离核心需求（如多跳推理）
工具调用（Tool Use）
- 依赖高质量标注轨迹：监督微调需大量人工示例（如Toolformer）
- 泛化性差：Prompt工程难以覆盖未见过的问题类型

三、Search-R1

3.1 使用搜索引擎进行强化学习

我们利用搜索引擎 R 制定 RL 目标函数如下：

符号含义作用 πθ 待优化的策略LLM（参数为θ) 学习生成推理步骤和搜索调用的序列 πref 参考LLM（初始模型或SFT模型）提供KL正则化基准，防止策略偏离原始能力 R 搜索引擎环境组件，返回检索结果（外部知识） x∼D 输入问题（来自数据集D）训练样本源 y 输出序列（混合：LLM生成token + 检索内容）包含推理、查询、答案 rϕ(x,y) 奖励函数（参数ϕϕ为规则定义）评估最终答案正确性（如Exact Match） β KL正则化系数平衡奖励最大化与策略稳定性 DKL KL散度约束策略πθ与参考模型πrefπref的分布差异

序列生成：策略πθ按模板生成序列y，动态插入搜索调用（）
检索注入：当生成query时，搜索引擎RR返回结果，插入序列（结果）
奖励计算：从yy提取最终答案，计算rϕ(x,y)（仅依赖答案正确性）
优化目标：最大化奖励，同时最小化KL散度（防止灾难性遗忘）

与以往主要依赖策略 LLM πθ (· | x) 生成 rollout 序列的强化学习方法不同，我们的框架通过 πθ (· | x; R) 明确地引入了检索交错推理，可以理解为 πθ (· | x)N R，其中 N 表示交错检索和推理。这使得在需要外部信息检索的推理密集型任务中能够更有效地进行决策。方法建立在两种成熟的策略梯度强化学习方法之上：近端策略优化和群体相对策略优化 (GRPO) ，利用它们各自的优势来优化检索增强推理

3.1.1 检索令牌的损失掩码

在 PPO 和 GRPO 中，词元级损失都是在整个 rollout 序列上计算的。在 SEARCH-R1 中，rollout 序列包含 LLM 生成的词元和从外部段落检索到的词元。虽然优化 LLM 生成的词元可以增强模型与搜索引擎交互和推理的能力，但将同样的优化应用于检索到的词元可能会导致意想不到的学习动态。为了解决这个问题，为检索到的词元引入了损失掩蔽，确保策略梯度目标仅针对 LLM 生成的词元进行计算，并将检索到的内容排除在优化过程之外。这种方法在保持搜索增强生成的灵活性的同时，也提高了训练的稳定性

3.1.2 搜索引擎与PPO

近端策略优化是一种流行的 Actor-Critic 强化学习方法，常用于 LLM。对于我们涉及搜索引擎调用的推理场景，它通过最大化以下目标来优化 LLM：

符号含义 πoldπold 旧策略（更新前的策略） I(yi) Token掩码函数：I(yi)=1（LLM生成），I(yi)=0（检索内容） Ai 优势函数（通过GAE计算） ϵ PPO clip范围超参（通常取0.1~0.3）

检索Token掩码（Retrieved Token Masking）
- 仅对LLM生成的Token（I(yi)=1）计算损失，跳过检索内容
- 作用：避免优化无关的检索文本，提升训练稳定性
Clip机制
- 限制策略更新幅度：clip(πθπold,1−ϵ,1+ϵ)
- 作用：防止策略突变，保证收敛平稳性

3.1.3 搜索引擎与GRPO

为了提高策略优化的稳定性并避免需要额外的价值函数近似，提出了组相对策略优化GRPO。与 PPO 的不同之处在于，它利用多个采样输出的平均奖励作为基线，而不是依赖于学习到的价值函数。具体而言，对于每个输入问题 x，GRPO 从参考策略 πref 中采样一组响应 {y1, y2, ..., yG}。然后，通过最大化以下目标函数来优化策略模型：

特性 PPO GRPO 基线估计 需训练Critic模型（值函数）使用组内平均奖励作为基线 计算开销 高（需Critic）低（无Critic） 收敛速度 慢（Critic需预热）快（直接利用组奖励） 稳定性 高可能后期崩溃

GRPO优势

免去Critic训练，简化流程。
对每个输入x采样G条响应，用组内相对奖励计算优势 $\\hat A_{i,t}$

3.2 多轮搜索引擎调用生成

描述使用交错多轮搜索引擎调用生成 LLM 响应的部署过程，

公式如下： $y\\sim \\pi_\\theta(\\cdot |x;\\mathcal{R} )=\\pi_\\theta(\\cdot|x)\\otimes \\mathcal{R}$
方法遵循一个迭代框架，其中 LLM 在文本生成和外部搜索引擎查询之间交替进行。具体而言，每当需要外部检索时，系统指令都会引导 LLM 将其搜索查询封装在两个指定的搜索调用标记和之间。在生成的序列中检测到这些标记后，系统会提取搜索查询，查询搜索引擎，并检索相关结果。然后，检索到的信息被封装在特殊的检索标记和中，并附加到正在进行的部署序列中，作为下一步生成步骤的附加上下文。此过程不断迭代

直到满足以下条件之一：(1) 达到最大操作数，或 (2) 模型生成最终响应，该响应包含在指定的答案标记和之间

3.3 训练模板

为了训练 SEARCH-R1，首先设计一个简单的模板，用于指导初始 LLM 遵循我们预先定义的指令。如表 1 所示，该模板以迭代的方式将模型的输出构建为三个部分：首先是推理过程，然后是搜索引擎调用函数，最后是答案。我们特意将约束限制在这种结构格式上，避免任何针对特定内容的偏见，例如强制进行反思性推理和搜索引擎调用，或支持特定的问题解决方法。这确保了模型在强化学习过程中的自然学习动态保持可观察且无偏差

3.4 奖励建模

奖励函数是强化学习中引导优化过程的主要训练信号。为了训练 SEARCH-R1，我们采用了一个基于规则的奖励系统，该系统仅包含最终结果奖励，用于评估模型响应的正确性。例如，在事实推理任务中，可以使用基于规则的标准来评估正确性，例如：精确字符串匹配：

其中 $a_{pred}$ 是从响应 y 中提取的最终答案， $a_{gold}$ 是真实答案。这里没有纳入格式奖励，因为我们学习到的模型已经展现出强大的结构一致性。此外，我们避免训练神经奖励模型。这一决定的动机是，LLM 对大规模强化学习中特定形式的奖励较为敏感，并且重新训练这些模型会带来额外的计算成本和复杂性

3.5 核心创新

3.5.1 框架设计

RL驱动的交互式搜索推理

组件 技术实现 作用 多轮交互机制 LLM通过特殊标记动态调用搜索：
• query 触发搜索
• 结果 注入检索内容支持迭代式检索-推理（类似人类解题过程） 训练稳定性保障 检索Token掩码（Retrieved Token Masking）：
• 仅优化LLM生成的Token（跳过检索内容）避免无关文本干扰梯度，提升收敛稳定性（表4） 极简奖励设计 结果奖励（Outcome Reward）：
• rϕ(x,y)=EM(apred,agold) 仅用答案正确性引导学习复杂搜索行为

3.5.2 通用RL算法兼容性

算法 优化目标 优势 局限性 PPO 带Clipping的策略梯度（公式2）训练稳定需Critic模型，收敛慢 GRPO 组内相对奖励基线（公式3）免Critic、计算高效后期可能奖励崩溃

关键流程：
输入问题 → LLM生成推理步骤 → 动态插入搜索请求 → 检索结果注入上下文 → 继续推理 → 输出最终答案
训练时：通过RL优化搜索决策（何时检索、检索什么）和答案生成能力

四、分析

4.1 PPO vs. GRPO

我们使用 PPO 和 GRPO 作为基础强化学习方法来评估 SEARCH-R1，并在 Qwen2.5-3B/7B 模型上进行实验。训练动态对比如图 2(a) 所示，评估结果如表 3 所示

揭示了以下几点：

(1) 在所有情况下，GRPO 的收敛速度都快于 PPO。这是因为 PPO 依赖于一个批评模型，该模型需要经过多个预热步骤才能开始有效的训练

(2) PPO 表现出更高的训练稳定性。如图 2(a) 所示，GRPO 在训练多步后会导致奖励崩溃，而 PPO 则保持稳定

(3) PPO 和 GRPO 的最终训练奖励相当。尽管收敛速度和稳定性存在差异，但两种方法都实现了相似的最终训练奖励和性能，这表明它们都可用于优化 SEARCH-R1。PPO 表现出更高的训练稳定性，使其成为此设置下的首选

4.2 Base vs. Instruct LLMs

分析了 SEARCH-R1 在基础 LLM 和指令调优 LLM 上的训练动态。实验在两个模型变体上进行：Qwen2.5-3B 和 Qwen2.5-7B。如图 2(b) 所示，我们观察到指令调优模型收敛速度更快，并且初始性能比基础模型更高。然而，两种模型类型的最终训练奖励在训练后仍然非常相似。这一发现表明，虽然一般的后训练可以加速推理加搜索场景中的学习，但强化学习可以有效地弥合差距，使基础模型达到相当的性能

4.3 响应长度和有效搜索研究

我们使用 SEARCH-R1 和 Qwen2.5-7b-base 模型进行了一项实验，以分析训练过程中响应长度和有效搜索引擎调用次数的动态变化。响应长度结果如图 2(c) 所示，揭示了以下主要趋势：

(1) 早期阶段（前 100 步）：响应长度急剧下降，而训练奖励略有增加。在此阶段，基础模型学习消除过多的填充词，并开始适应任务要求

(2) 后期阶段（100 步之后）：响应长度和训练奖励均显著增加。此时，LLM 学会频繁调用搜索引擎，由于检索到的段落，导致响应更长。随着模型能够更有效地利用搜索结果，训练奖励也显著提升。有效搜索结果如图 2(d) 所示，表明随着训练的进行，LLM 学会调用搜索引擎的次数越来越多