联网搜索Agent7B媲美R1华PG电子-PG电子平台-官方网站为盘古DeepDiver开域信息获取新解法
Pocket Games Soft 是世界一流的手机游戏开发商。[永久网址:wdhash.com]致力于在iOS,Android和HTML5平台上提供前所未有,身临其境的移动游戏解决方案,为提供玩家安全优质的pg电子,PG游戏试玩,PG电子官方网站,pg电子游戏,pg游戏,pg电子app,PG APP下载,pg电子平台,PG模拟器,pg娱乐,欢迎注册体验!大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略?
该项研究的主要发现如下:(1)对于复杂信息获取任务,端到端 Agentic RL 训练相比直接蒸馏老师轨迹能更好地实现 Search Intensity Scaling,从而带来平均 10 PCT 效果提升;(2)基于真实互联网搜索 API 和数据集进行训练,相比基于 Wikipedia,能够学到更多有效推理模式;(3)基于 Search Intensity Scaling,DeepDiver 的检索和推理能力可以从客观题泛化至主观生成任务。
Prompt-based 方法:如 FLARE [1]、Search-o1 [2] 等,通过复杂 prompt 流程指导模型,优势在于即插即用,但缺乏灵活性和智能性。SFT-based 方法:如 Self-RAG [3]、AutoRAG [4] 等,通过构建人工合成数据教会模型拆解问题、生成检索词,但行为方式、获取信息的策略完全取决于 SFT 数据分布,泛化能力有限。
LLM 预训练已内化大量 Wiki 知识,使得模型不需真正检索就能回答问题Wiki 环境过于「干净」,缺乏真实互联网的噪声和信息冲突,这使得目前主流的基于 wiki 环境的 LLM 会主动地学习如何收集关键信息,但如何解决冲突,如何在真实互联网环境中去噪验证信息真实度,以及如何反思和纠正内容等高阶能力则会被忽略。
这些受限的训练语料和环境,阻碍了 LLM 学习动态地决定何时何地进行搜索,以及如何根据需求调整搜索深度和频率。研究团队将这种缺失的能力定义为Search Intensity Scaling (SIS)—— 一种在充满模糊、信息冲突的高噪音环境下,LLM 为了突破困境而涌现出的信息检索能力,通过 SIS,模型会根据问题难易程度动态的调整搜索频率和深度,而不是妥协于验证不足的答案上。为此,研究团队认为只有在真实互联网环境下,用真实互联网数据进行探索式训练,才能使模型涌现真正的高阶信息检索和推理能力。
(a) 收集关键信息,(b) 解决冲突,(c) 验证与去噪,(d) 反思与纠正
为了让模型能够使用真实的互联网数据进行训练,本文提出了 WebPuzzle。
他是一名 NBA 状元秀球员,他曾效力于 76 人、掘金、活塞等队,他入选了最佳新秀一阵,然而他没拿到过总冠军,他有超过 170 + 次数的两双数据,他是谁?-- 答案: Joe Smith (艾佛森并不满足两双数据的描述)她凭借多个经典古装角色深入人心,她曾经签约了海外的唱片公司推出过多语种音乐专辑,她主演的某部古装剧更因播放量创纪录被国家馆藏机构收录,更令她凭此剧斩获某电视节最高奖项,她是谁?-- 答案:刘亦菲2020 年 10 月至 2024 年 4 月期间,华为公司与孝感市政府进行了几次合作洽谈?每次洽谈的主要领导是谁?-- 答案:2 次洽谈,第一次是 2020 年时任市委书记、市长吴海涛与湖北公司总经理孟少云。第二次是 2024 年市委副书记、市长吴庆华与华为技术有限公司高级副总裁杨瑞凯。
Wiki 猜谜类数据:研究团队收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 语料,在语料中选取特定实体作为谜底,然后罗列出与该实体有关的特性作为谜面,再将其中部分特性隐藏化、模糊化(如示例中的「超过 170 + 次数」,「签约了海外的唱片公司」分别代表「172 次两双数据」,「签约了日本的唱片公司」),增加解题难度。真实用户问题:基于现网真实用户问题及其搜索返回结果,构建多篇网页交叉验证的问题。
图 2:WebPuzzle 数据构建流程,包括候选生成和难度标注两个主要阶段
测试集经过了人工标注后,最终版 WebPuzzle 包含 24k 训练样本和 275 条高质量评测样本,涵盖不同难度等级的跨页问答和猜谜题目。
DeepDiver 基于迭代式 RAG 框架构建,该框架要求模型在收到用户请求后,自行在多个轮次交替式的推理和搜索,具体来说,在每个轮次中:
2. 决策:根据推理的内容,决策当前轮次是搜索 (Search) 或回答 (Answer)
通过蒸馏 teacher 模型的回复,使模型掌握基本的解题套路。使用 5.2k 高质量数据对模型进行初步训练,包括:
2k WebPuzzle 数据2.2k 通用推理数据 (数学、逻辑推理等)1k 真实用户问题与搜索结果拼接数据
在冷启动模型的基础上,使用 GRPO 算法让模型自主探索,对高质量探索路径给予奖励。这一过程完全由 outcomereward 信号引导,没有 distillation 或 SFT 范式的 step-wise 数据干预。
1. 宽松奖励 (训练初期):使用 0-10 分评分标准,模型输出满足部分条件 (得分≥6) 即可获得奖励,稳定训练初期。
2. 严格奖励 (训练后期):模型回答需通过三轮严格评估,每轮由三个不同 LLM grader 校验,只有至少 2 轮校验通过的情况下才会给予奖励。实验展示出严格奖励在训练后期有助于突破训练瓶颈。
针对搜索引擎使用,研究团队设计了额外奖励机制:当一组 rollouts 中所有不使用搜索的尝试都失败,而如果有使用搜索的尝试成功时,给予这些 rollout 额外奖励,纠正模型过度依赖内部知识的倾向。
1.DeepDiver 大幅优于蒸馏模型:在 WebPuzzle 上,DeepDiver-Pangu-7B 达 38.1%,远远超过了蒸馏版本的模型,提升明显;使用了同样训练方法的 DeepDiver-Qwen2.5-7B 准确率达 37.6%,比 R1 蒸馏版提升近 8 个百分点;这说明了基于真实互联网的强化学习环境和训练语料能够大幅提升模型的信息索取能力。
3.优异的跨任务泛化能力:虽然模型主要在 WebPuzzle 上训练,但在其他数据集上同样表现卓越,验证了整个 DeepDiver 框架和 SIS 带来的强大的泛化能力。
在主试验中,研究团队发现 DeepDiver 在非 WebPuzzle 的榜单上尽管提升明显,但是仍然落后于 DeepSeek R1, QwQ 等模型。该团队提出一个问题,DeepDiver 落后于这些模型到底是因为 Information Seeking 的能力不如这些 Baseline,还是因为这些 Baseline 的参数量较大,预训练阶段已经内化了这些榜单的知识源?
为验证 DeepDiver 在信息检索方面的真实能力,他们设计了「公平对比」实验:排除模型仅靠内部知识就能回答的问题,只比较需要外部检索的问题上的表现。
结果表明,在难以通过内部知识解决的问题上,DeepDiver 超越或匹敌所有基线模型,甚至包括 DeepSeek-R1。这证实了 DeepDiver 在 WebPuzzle 完整数据集上未能全面超越 671B 基线模型的主要原因,是参数规模而非检索能力限制。而对于检索能力本身而言,DeepDiver 则表现出了非常强大的能力,能够让 7B 模型与超大规模 LLM 性能相当。
为了与同期工作进行对比,尽管 DeepDiver 完全使用中文训练,研究团队仍在英文基准测试中借助英文搜索引擎进行了评估,并与同期工作进行比较,如下表所示,其中 R1-Searcher 是基于 Wiki 环境和语料训练,DeepResearcher 是基于 Wiki 语料和真实搜索环境训练:
结果显示,基于真实互联网语料和环境训练的 DeepDiver,尽管没有在训练中接触英文训练语料和搜索环境,DeepDiver 凭借 SIS 在绝大多数任务上仍超越了基于 Wiki 训练的基线模型,凸显了 SIS 的强大性能和解决难题时的适应能力。
DeepDiver 展现出卓越的搜索强度自适应能力,随着问题难度增加,模型会增加搜索轮次:
特别是与 DeepSeek-R1 相比,DeepDiver 在超难子集上取得显著领先:平均 2.6 轮搜索带来 3.7 个百分点的优势,而 DeepSeek-R1 仅使用 1.59 轮搜索就妥协于一个不那么令人满意的结果。
在训练过程中,研究团队发现后期性能常陷入瓶颈。通过对比不同奖励函数的效果,他们得出重要结论:
图 6:不同奖励函数的训练效果,宽松奖励稳定初期训练,严格奖励突破后期瓶颈
宽松奖励有助于稳定强化学习初期阶段,而严格奖励则能在后期突破性能瓶颈。切换到严格奖励后,WebPuzzle 上的得分提高了近 9 个百分点(从 29.1% 升至 37.6%)。
DeepDiver 仅在 WebPuzzle 封闭式问题上训练,但能够出色泛化到开放式问答任务:
在长文生成评测基准 ProxyQA 上,DeepDiver 得分达 32.72%,比 R1 蒸馏模型高出 9.47 个百分点,同时生成更长、更全面的回答,展现出卓越的知识密集型长文生成能力。在没有 cherry picking 的情况也能一眼看出 DeepDiver 和蒸馏模型生成结果的区别。
结果表明,WebPuzzle 比现有 Wiki 数据集更具挑战性,需要更复杂的信息搜索行为。而 DeepDiver 模型相比其他基线模型表现出更多样化和复杂的信息搜索行为,展示了在真实网络环境中训练的优势。
尽管 DeepDiver 获得了正向的实验结果,但研究团队仍然认识到以下几点局限和未来研究方向:
1.WebPuzzle 的持续演化:随着 LLM 预训练的不断扩展,如何持续构建有效的 benchmark 来适配与时俱进的 LLM,是一项长期挑战。
2. 开放式任务的 RL 框架优化:为开放式问题设计更有效的 RL 框架,解决长文生成等任务的奖励设计难题。
3. 冷启动 SFT 与 RL 的动态衔接:探索自适应流程,让 LLM 按需动态地从 SFT 切换到 RL,提升训练效率。
4. 工具生态的扩展:除搜索引擎外,扩充浏览器引擎、Python 解释器、本地知识库等工具,进一步增强信息获取能力。
5. 模型规模和序列长度的扩展:基于昇腾平台,在更大模型规模上进行验证,推动产品应用和落地部署。
6. SIS 影响机制的系统性分析:探究基座模型能力、训练数据构成、算法设计等多种关键因素对实现 SIS 效果的影响规律,深入分析和进行消融实验。
DeepDiver 系统地探讨了 LLM 在真实互联网环境下解决知识密集型问题的能力。通过强化学习与真实互联网搜索引擎的结合,该研究实现了 Search Intensity Scaling,使模型能根据任务难度自适应调整搜索强度。在 WebPuzzle 和多项基准测试中,7B 规模的 DeepDiver 展现出与 671B DeepSeek-R1 相当的表现,验证了该方法的有效性。Agentic RL 训练技术在 Agent 发展中逐步显现出重要价值,本工作提供了搜索引擎环境下的具体参考。