这样的训练过程不仅昂贵,还容易让智能体在漫长的探索中迷失方向。
更糟糕的是,很多环境缺乏可靠的重置机制,错误操作可能是不可逆的,比如误删数据。这些挑战让强化学习在智能体训练中显得力不从心。
那么,突破口在哪里?答案是“经验合成”。
与其在真实环境里耗费巨资采集数据,不如让智能体在一个由推理驱动的“经验工厂”里生成交互轨迹。
只要这些合成经验足够多样、因果关系合理,就能为智能体提供稳定的学习素材。
这就是DREAMGYM的核心理念:一个统一、可扩展的强化学习训练框架,通过推理模型生成抽象状态和奖励,替代昂贵的真实交互。
图1:与传统的代理学习范式相比,DreamGym提供了第一个具有统一基础设施的可扩展且有效的强化学习框架。
DREAMGYM的提出背后,是一个跨越产业与学术的豪华团队。Meta Superintelligence Labs 和 FAIR 提供了工程与算法的前沿支持,芝加哥大学和加州大学伯克利分校则贡献了理论与安全方面的深厚积累。
团队成员包括 Zhaorun Chen、Jason Weston、Dat Huynh、Dawn Song、Bo Li 等知名研究者,既有产业研究员,也有学术教授和博士生,形成了一个完整的研究链条。可以说,这项研究本身就是产业与学术深度合作的产物。
01
传统范式与经验合成范式的对比
在传统的强化学习范式里,智能体必须依赖真实环境进行训练。它们通过不断尝试和错误来积累经验,但每一次交互都伴随着高昂的成本和稀疏的奖励。
比如在网页导航任务中,智能体可能要经历几十步点击才能获得一次成功的奖励,这种低效的学习方式让训练过程既漫长又不稳定。
经验合成范式则完全不同。DREAMGYM不再执着于构建一个“逼真”的虚拟世界,而是通过推理模型在抽象的文本状态空间中生成交互轨迹。
智能体的动作不再对应复杂的 HTML 代码或像素级画面,而是被映射为简洁的元素操作和逻辑状态转移。奖励信号也由推理模型通过因果链条生成,既稳定又统一。
这样一来,智能体可以在一个“推理驱动的实验室”里快速积累经验,而无需耗费巨大的算力去模拟真实世界的每一个细节。
Figure 1 就直观展示了这种差异。传统范式下,智能体面对的是稀疏的奖励和昂贵的环境交互;而在DREAMGYM中,经验模型提供了丰富、统一的奖励信号和大量可扩展的任务变体。
换句话说,传统范式像是在真实世界里摸索前行,而经验合成范式则像是在一个专门为学习设计的“健身房”里进行训练。
这种转变的关键不在于“逼真模拟”,而在于“因果一致性”。智能体并不需要一个完全复制现实的环境,它需要的是一个能够提供合理因果关系的经验空间。
只要动作与结果之间的逻辑链条成立,智能体就能学到有用的策略。DREAMGYM正是抓住了这一点,用推理合成的方式替代了昂贵的真实交互,开辟了智能体学习的新路径。
02
DREAMGYM框架核心组件
如果把智能体的训练比作一场长跑,DREAMGYM就是为它量身打造的“训练场”,既有科学的跑道,又有合理的配速器,还配备了随时调整难度的教练。
它的三大核心组件——推理经验模型、经验回放缓冲区和课程式任务生成——共同构成了这套训练体系的骨架。
图2:DreamGym代理训练框架概述。给定一组种子任务,基于推理的体验模型与代理交互,为RL训练生成信息丰富、多样化的任务和轨迹。
在每一步中,代理根据其当前状态采取行动,并接收由经验模型通过CoT推理得出的下一个状态和奖励信号,CoT推理基于交互历史和来自活动重放缓冲区的top-k个类似经验。
为了让智能体接触到信息量越来越大的场景,课程任务生成器提出了具有高奖励熵的任务,以供未来训练。通过这种统一的设计,DreamGym解决了任务和奖励稀疏性的问题,同时在多样化和课程驱动的环境中实现了可扩展的强化学习。
推理经验模型 (Reasoning Experience Model)
DREAMGYM的第一大亮点就是推理经验模型。它不再执着于像素级的世界重建,而是选择在抽象文本状态空间中进行交互。
智能体看到的不是繁杂的网页代码或界面像素,而是经过提炼的“关键元素”:按钮、菜单、表格、链接。这种抽象化设计让训练过程更高效,避免了无关噪音的干扰。
更重要的是,它通过Chain-of-Thought(思维链)推理来生成状态转移和奖励。每一步动作都伴随着逻辑解释:为什么点击某个按钮会进入下一页,为什么某个操作会导致失败。
奖励信号也因此更稳定,不再是稀疏的“黑箱反馈”,而是有因果逻辑支撑的结果。
在输入上,模型依赖三大要素:
- 任务指令:明确目标,让模型知道“要做什么”;
- 交互历史:保持上下文一致性,避免状态跳跃;
- 相似经验:从回放缓冲区检索相似轨迹,提供参考案例。
这种设计的优势显而易见。与像素级世界模型相比,它更像是“去掉背景噪音的精简版世界”,既节省算力,又更容易让智能体学到关键策略。
这是一种“因果驱动”的高效建模方式,避免了在复杂环境中无谓的资源消耗。
经验回放缓冲区 (Experience Replay Buffer)
如果说推理经验模型是教练,那么经验回放缓冲区就是训练日志。它一开始由离线数据初始化,提供基本的知识背景。
随着智能体不断交互,它又会动态更新,形成一个与智能体策略共演化的记忆库。
这个缓冲区的作用不仅是存储,更是提供多样性与稳定性。通过检索相似轨迹,它能帮助模型减少幻觉,避免生成不合理的状态转移。
它是智能体的“知识记忆体”,既能回顾过去的经验,又能为当前的推理提供参考。
这个缓冲区的设计非常贴近人类学习逻辑。我们在学习新技能时,也会不断回顾过去的案例,结合新经验来调整策略。
智能体的训练过程因此更像是一个有记忆、有积累的学习者,而不是一台盲目的试错机器。
课程式任务生成 (Curriculum Task Generator)
最后登场的是课程式任务生成器,它的角色就像私人教练,负责不断调整训练难度。
它的秘诀在于奖励熵:当一个任务既有成功也有失败时,信息增益最大,智能体能从中学到最多。于是,生成器会挑选这些“中等难度”的任务,并衍生出更具挑战性的变体。
为了避免训练过度偏离原始任务分布,系统还引入了一个控制参数 λ,用来限制每轮合成任务的比例。这样既能保证探索的多样性,又能维持整体稳定。
这种设计与人类学习的“适度难度”规律高度契合。我们在学习时,太简单的任务会让人无聊,太难的任务则容易挫败。
只有处在“刚好够挑战”的区间,学习效果才最佳。DREAMGYM的课程生成器正是把这一规律转化为算法逻辑,让智能体在不断升级的任务中稳步成长。
03
与强化学习算法的结合
DREAMGYM并不是要推翻现有的强化学习算法,而是像一位“训练场设计师”,为这些算法提供更合适的舞台。
它的目标是让智能体在一个高效、稳定的环境中发挥出 PPO 和 GRPO 等算法的优势,而不是被真实环境的高成本和稀疏奖励拖累。
先来看看两位主角。PPO(Proximal Policy Optimization)是强化学习界的明星选手,它通过限制策略更新的幅度来保持训练稳定。
简单来说,它就像一位谨慎的跑者,每次只迈出合适的步伐,避免因为过度调整而摔倒。PPO 的优势在于稳定性,但它需要大量的交互数据来估计价值函数,这在真实环境里往往代价高昂。
GRPO(Group Relative Policy Optimization)则是另一种思路。它不依赖价值函数,而是通过组内相对奖励来进行归一化。
它更像是一场小组赛,智能体的表现不是和绝对标准比,而是和同组的其他尝试比。这样做的好处是更轻量、更易扩展,但缺点是样本效率可能稍逊。
那么DREAMGYM如何与它们结合呢?关键在于它的“正交性”。
DREAMGYM并不改变 PPO 或 GRPO 的算法逻辑,而是提供了大量合成的交互经验作为训练素材。
推理经验模型生成的状态转移和奖励,经验回放缓冲区提供的多样化案例,以及课程式任务生成器带来的渐进挑战,都让这些算法在一个更稳定、更丰富的环境中运行。

DREAMGYM就像是为 PPO 和 GRPO 提供了一个“虚拟训练场”,让它们可以尽情发挥,而不必担心真实环境的高成本和不稳定性。
经验合成的最大价值在于提升样本效率与稳定性。在传统 RL 中,智能体可能需要成千上万次交互才能学到有效策略,而在 DREAMGYM中,合成经验的因果一致性和多样性让学习过程更快、更稳。奖励信号不再稀疏,状态转移不再混乱,训练过程因此更像是一场有条不紊的课程,而不是盲目的试错。
04
实验与结果分析
任何一个新框架的价值,最终都要靠实验来检验。DREAMGYM也不例外。
研究团队在多个环境和多种模型上进行了系统评估,结果不仅验证了它的可行性,还展示了经验合成在智能体学习中的巨大潜力。
实验环境与基准
图3:(1)左:比较不同训练策略和骨干网在WebArena上的代理性能(成功率%)与总训练时间的关系。
(2)中间:评估通过DreamGym训练的代理策略与来自不同环境的种子任务的跨域可转移性。
(3)右:比较WebShop上的代理性能与不同训练策略的训练步骤数。
为了全面考察DREAMGYM的表现,研究者选择了三类具有代表性的环境。
WebShop是一个电商场景,智能体需要通过搜索、筛选和下单来完成购物任务,考验的是推理与操作的结合。
ALFWorld则是一个虚拟的家庭环境,智能体要完成多步操作,比如“把杯子放进水槽”,强调的是多轮交互与工具使用。
最后是WebArena,一个动态的网页交互环境,难度更高,因为它原本并不支持 RL 训练,奖励信号稀疏且环境变化频繁。
在模型选择上,团队没有局限于单一架构,而是测试了多种 LLM 骨干模型,从中小规模到更大参数量的版本都有覆盖。
这种多样化的设计,确保了结果不仅仅是某个模型的特例,而是具有普遍意义。
主要结果
最令人惊喜的发现来自WebArena。在这个原本几乎无法用 RL 驯服的环境中,DREAMGYM带来了超过 30% 的性能提升。它让 RL 在一个“不可能的场景”里变得可行。
在WebShop和 ALFWorld这类已有 RL支持的环境中,DREAMGYM的表现同样亮眼。即便完全依赖合成经验,它的训练效果也能与传统 RL 在真实环境中进行数万次交互的结果相当。
这意味着,智能体不必再“烧钱”式地在真实环境里反复试错,就能学到同样有效的策略。
更进一步,研究团队提出了DREAMGYM-S2R(Sim-to-Real)策略:先在合成环境中进行预训练,再迁移到真实环境中进行少量交互。
结果显示,只需极少的真实交互数据,就能超越传统 RL 从零开始训练的表现,性能提升幅度超过 40%。这就像是让智能体先在模拟器里打好基础,再到真实世界里“实习”,效率和效果双双提升。
消融实验
图4:使用GPT-4o作为评判标准对关键标准的经验模型进行评估。我们随机抽样100条轨迹,并提示模型在四个标准上分配{0,1,2}中的离散分数。
当然,研究者也没有忘记做“拆解测试”。他们依次移除了 DREAMGYM的三大组件,结果一目了然:
这些实验充分说明,DREAMGYM的三大组件缺一不可。它们就像三条支柱,共同撑起了经验合成的训练大厦。
图5:不同数量的离线训练数据大小(过渡步骤)和骨干的体验模型评估。
05
理论分析与方法论意义
DREAMGYM并不是凭空冒出来的“经验工厂”,它背后有扎实的理论支撑。
研究团队提出了一个策略改进的下界证明:只要合成环境中的奖励信号和状态转移保持一致性,智能体在真实环境中的策略也能得到改进。
智能体并不需要一个完全逼真的虚拟世界,它需要的是一个逻辑上可靠的因果链条。只要动作与结果之间的关系合理,学习就能发生。
这为经验合成的合理性提供了理论保障。传统 RL 的痛点在于真实环境的高成本和不稳定性,而 DREAMGYM的推理驱动经验模型通过抽象化状态和因果一致的奖励,解决了这一问题。
从方法论角度看,它把“环境”重新定义为一个可控的推理空间,而不是必须依赖的外部世界。这种转变不仅降低了训练门槛,也让智能体的学习过程更具普适性。
图6: WebArena中DreamGym采样轨迹的案例研究。从综合指令开始,经验模型对代理的行为进行推理,以产生未来状态。
经验合成的价值在于它既有理论上的合理性,又有实践上的可行性。它不是单纯的模拟,而是通过逻辑一致性来保证学习效果。
这让我们看到一个新的范式:智能体的成长不必依赖昂贵的真实交互,而可以在一个“推理驱动的实验室”里完成。
06
未来展望与应用场景
DREAMGYM的潜力远不止于学术实验室。它为通用智能体的低成本训练提供了可能。
企业和研究机构可以在合成环境中快速培养智能体,再将其迁移到真实场景中进行少量微调。这种方式不仅节省资源,还能显著提升训练效率。
在应用层面,电商场景是最直接的受益者。智能体可以在合成环境中学会搜索、筛选和下单的逻辑,再进入真实平台执行任务。
操作系统控制和 Web 导航同样适用,智能体可以先在合成环境里练习复杂的多步操作,再在真实系统中稳定运行。
更有趣的是,经验合成还可能与情感智能和社会平台结合。
智能体在一个合成的社交环境里学习如何回应用户的情绪、如何进行多轮互动,再把这些技能迁移到真实社交平台。这不仅提升了交互质量,也为未来的“情感驱动型智能体”打下基础。
经验合成很可能成为未来“智能体经济”的基础设施。就像电力和互联网曾经为工业和信息社会提供底层支持一样,经验合成有望成为智能体时代的训练底座。
它让智能体的成长不再依赖昂贵的真实交互,而是通过逻辑一致的合成经验实现规模化发展。
07
结 论
DREAMGYM的创新点在于,它把环境从“真实世界的复制品”转变为“推理驱动的经验生成器”。
通过推理经验模型、经验回放缓冲区和课程式任务生成三大组件,它为智能体提供了一个高效、稳定、可扩展的训练场。
这种设计不仅解决了传统 RL 的痛点,更重塑了智能体学习的范式。它证明了智能体的成长不必依赖昂贵的真实交互,只要经验合成足够因果一致,就能成为可靠的训练素材。
经验合成不仅是一个技术突破,更是未来智能体生态的战略支点。它为通用智能体的低成本训练提供了可能,为多场景应用打开了大门,也为智能体经济的基础设施奠定了雏形。
DREAMGYM不只是一个框架,它是智能体学习走向规模化与普适化的里程碑。(END)
参考资料:https:///pdf/2511.03773
关于波动智能——
波动智能旨在建立一个基于人类情绪与反应的真实需求洞察及满足的价值体系,融合人工智能与意识科学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发面向社交、电商等场景的多模态情绪识别引擎、情绪标签系统及情绪智能推荐算法,形成从情绪采集、建模到商业转化的完整解决方案。波动智能提出“情绪是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到情感驱动的产业范式升级。
亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!
加入AI交流群请扫码加微信