具身智能体不同于传统的语言模型,它需要一边“看”环境,一边“动”手,还要“想清楚”接下来的步骤。这些任务往往不是“找到香蕉”这样简单,而是像“热一下番茄然后放进水槽”——听起来平平无奇,实际要做得对、做得高效,可不简单。
它涉及感知–推理–行动的长链式决策流程,而现有主流模型无论是语言模型(LLMs)还是多模态模型(MLLMs),在这一挑战面前常常“掉链子”。
语言模型缺乏感知锚定,无法真正“看到”世界;
多模态模型尽管能处理图像和文字,但在多步计划和动态环境中,仍显得迟缓、脱节。
这一问题的根子,不仅在于模型结构本身,更在于训练范式的限制。近年来流行的强化学习微调(Reinforcement Fine-Tuning,RFT)确实带来了不少突破,但在具身场景中,它面对两个核心难题。
首先是奖励稀疏。一个智能体可能做出十几步操作,只有最后那一步才知道自己“对”了还是“错”了,中间过程完全没有信号反馈,这让策略学习变得异常低效。
其次,泛化受限。多数系统依赖人工手工设定的奖励函数,这种方式在特定场景中行之有效,但一旦换了任务或环境,就会彻底失灵。
面对这样的困境,SEEA-R1 横空出世。
SEEA-R1,全称 Self-Evolving Embodied Agent-R1,是一套全新的强化学习微调框架,它的核心野心在于:让具身智能体学会“自己变聪明”。它用一种类树状结构的搜索机制,将传统强化学习稀疏的终点奖励信号,打磨成逐步引导式的“过程奖励”;同时引入多模态生成式奖励模型(MGRM),用数据驱动代替任务模板,让模型可以在没有人工奖励的情况下,自己判断“做得好不好”。
更令人惊喜的是,SEEA-R1不仅在文本与图像任务中刷新了基准测试成绩,在无外部监督的条件下依然表现出强大的学习能力,甚至超越 GPT-4o 等大模型的表现。
图1:SEEA-R1通过感知和基于树的搜索进行规划,通过奖励信号改进行动,以解决体现环境中高级指令的任务,从而自我进化。
这样一个“自我进化”的框架并非空穴来风,而是凝聚了来自北京两大顶尖研究单位的深厚功力。
一个是北京人形机器人创新中心——聚焦人形具身智能,擅长从强化学习角度推进人机交互;另一个是北京大学计算机学院的多媒体信息处理国家重点实验室,长期深耕多模态模型、多轮推理与视觉理解。他们是Wanxin Tian, Shijie Zhang, Kevin Zhang, Xiaowei Chi, Yulin Luo, Junyu Lu, Chunkai Fan, Qiang Zhou, Yiming Zhao, Ning Liu Siyu Lin, Zhiyuan Qin, Xiaozhu Ju, Shanghang Zhang, Jian Tang,在这支庞大的合作团队中,既有在图神经网络与自监督领域颇具声誉的学者教授,也有在具身学习和视觉语言模型研究上颇有建树的专家。他们的团队打通从语言到行动的认知通道,在 SEEA-R1 中完成了堪称典范的技术融合。
论文链接:https:///pdf/2506.21669
项目地址:https:///
01
方法概览
一套会自我进化的智能体训练“生态系统”
如果我们把具身智能体比作一位在厨房中摸索的新手厨师,那么传统方法就像是事无巨细地教他每一步该怎么做。SEEA-R1 则更像是给了他一套“自我提升”的系统:只要他动手做、总结经验、调整策略——就能自己渐渐掌握越来越复杂的菜谱。这就是 SEEA-R1 的魅力所在:打造一种“靠自己变强”的自演化机制。
什么是“自我演化”的具身智能体?
在形式上,SEEA-R1 将具身智能体抽象为一个四元组:
分别代表状态、动作、奖励和观察。
但这只是基础。一个真正的“自我演化”智能体,还必须具备三种能力。
能够自动合成数据:不靠人工喂数据,通过与环境的互动自我积累经验。
能够持续优化自身能力:每一次执行任务都变得更聪明一点。
能够闭环推理学习:通过感知—行动—反馈—再感知的循环,不断修正方向。
这些要素共同构成一个具备“生命力”的智能体学习机制。而SEEA-R1 就是把这种机制系统化的首个框架。
双循环结构:数据演化 × 模型演化
SEEA-R1 的核心是一套交替进行的“双循环”,如同大自然的演替与反馈机制:
一边是“数据演化”
由当前的策略模型驱动,智能体通过蒙特卡洛树搜索(MCTS)与环境互动,生成带有奖励信号的行为轨迹。这些轨迹不仅包含最终结果的反馈,还通过树结构对中间动作也进行评估(Q值),从而提供更丰富、细粒度的学习信号。
另一边是“模型演化”
采集到的轨迹数据被用来更新两个关键模型。
策略模型(Policy Model):决定下一步要执行什么动作。
奖励模型(MGRM):预测哪些操作值得奖励、哪些可能失败。
模型更新完成后,它们被投入下一轮数据演化之中,逐轮迭代、螺旋上升。
迭代闭环设计的真正用意
这种看似简单的“交替训练”设计,其实解决了具身学习中两个最大困境:
一是奖励稀疏的顽疾。传统智能体往往只知道“成功”与“失败”两个结果,没有过程反馈。而 SEEA-R1 用 MCTS 和 Q 值建立起一套“过程奖励”的机制,就像一位耐心的教练在旁边不断指出每一步的优劣。
二是泛化与适应的问题。靠人设的奖励函数往往只能适用于一个场景,但 SEEA-R1 中的 MGRM 是通过多模态历史轨迹自我训练出来的,它不靠人工标签,而是靠模型自己总结“什么是好行为”——从而具备了跨任务、跨环境的泛化能力。
归根结底,SEEA-R1 不只是一个算法框架,而是一种“训练智能体如何自我训练”的方法学。它不仅让智能体完成任务,还让它在完成任务的过程中,不断磨砺“如何更好地完成任务”的能力。
02
核心技术模块
让智能体走在“树”上学会进化
在 SEEA-R1 的庞大架构之中,有两个角色功不可没:一位是严谨冷静的规划家Tree-GRPO,另一位是洞察行为的奖励评判者 MGRM。两者分工协作,一边为智能体指明路径,一边判断每一步是否值当前行。更妙的是,它们通过一组精心设计的“双循环”,不断自我更新,让整个系统愈行愈“智”。
图2:SEEA-R1框架。该框架通过两个核心周期的迭代循环推动持续改进,如下所示:1.数据演化:政策模型从初始状态通过MCTS与环境交互,生成经验数据集,其中包含具有导出Q值的轨迹、来自环境的真实奖励和来自当前奖励模型的奖励。2.模型演变:收集的数据用于更新两个模型:(a)预测行动的政策模型和(b)预测分类结果的奖励模型。然后模型进化中的精细模型驱动下一次数据进化迭代,实现持续的自我进化。
Tree-GRPO:让强化学习长出“结构化大脑”
想象一个具身智能体在厨房中摸索“如何做一道蛋炒饭”。每一步怎么做,顺序如何安排,其实就像走在一棵决策树上寻找那条最有可能成功的路径。Tree-GRPO 便是这棵决策树的管理者。
它的基础结构是 Group Relative Policy Optimization(GRPO),一种强化学习方法,能够在生成多个候选动作的同时,比较这些动作在特定状态下的相对价值。而 SEEA-R1 在此基础上巧妙嵌入了蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)。
MCTS 在每个状态下选择最优分支,像下围棋一样探索多条路径;
每条轨迹不仅到达终点时获得奖励,中间每一步也被 MCTS 用 Q 值(动作值)估算其潜在价值;
所有动作及其细化的 token 都通过 GRPO 优化权重,使模型学会“在哪一步该冒险、在哪一步应收敛”。
最终的结果是——原本稀疏、模糊的“成败奖励”,被转化为连贯、稠密的反馈信号,就像无人指导的新手,在走过每一步时都有内心的“提示音”告诉他:继续,还是反省。
MGRM:奖励不靠人写,模型自己“打分”
为了训练一个会自主思考的智能体,奖励机制不能只靠人类定义。这正是 MGRM(Multi-modal Generative Reward Model)的用武之地。
它本质上是一个“奖励裁判”,但不同于传统的评分系统,它是由多模态大语言模型(MLLM)驱动的——可以同时“看图”、“读文”、“理解上下文”。
输入是智能体完整的历史轨迹,也就是它一步步操作的记录;
输出是一个结构化文本格式,包括 <think>{推理过程}</think> 和 <answer>{奖励结果}</answer>;
奖励结果分为“成功(success)”、“继续(continue)”和“失败(failure)”三种分类,每一类都可以用于强化信号。
通过这种方式,MGRM 不再依赖环境的“真值奖励”(如游戏中给你+10分),而是成为模型自己的“奖励生成器”。它相当于让智能体拥有一位自学心理导师,帮助它理解自己的行为背后的价值。
数据演化:用“探索之树”采集经验样本
在 SEEA-R1 的世界里,采集数据不是漫无目的地去做任务,而是一种带规划的“模拟人生”。这就是数据演化(Data Evolution)阶段的任务。
图3:SEEA-R1中的蒙特卡洛树搜索(MCTS)。(a)选择通过UCT(2)穿过树木,直到到达叶子。(b)扩展执行操作,观察结果,并扩展新的操作。(c)从新节点到终止或深度限制的模拟展开,收集奖励r。(d)使用方程式(3)中的公式更新动作值Q的备份传播奖励。
在这一阶段,Tree-GRPO 驱动 MCTS 从初始状态出发,不断进行多路径探索。每个动作都在“树”上展开成分支节点,模拟不同选择下可能的发展轨迹。
这一过程包含:
- 选择(Selection):从根节点出发,沿着最具潜力的路径前进;
- 扩展(Expansion):执行动作并生成新候选;
- 模拟(Simulation):沿路径进行虚拟执行;
- 回溯(Backup):用轨迹中获得的奖励更新各节点的 Q 值。
最终获得的,是一批带有 Q 值(动作期望值)的完整轨迹数据,既有成功结局,也保留了失败尝试。这些数据将成为下一步模型更新的“食粮”。
模型演化:双脑协同的内部更新机制
那么,有了数据,SEEA-R1 接下来的工作是如何“进化”?这正是模型演化(Model Evolution)阶段的精髓所在。

首先是策略模型的优化。它作为行动决策器,会利用 Tree-GRPO 所采集的数据,强化自身在每个状态下生成更优动作的能力。这意味着智能体将在未来“更快、更稳、更准”地完成任务。
其次是奖励模型 MGRM 的更新。在早期阶段,它可能对某些行为评估不准确——比如误判了一个失败操作为成功。但随着更多经验的积累与训练,它会逐渐修正、泛化,最终具备较高的奖励预测能力。
两者一前一后,协同迭代,形成了一个闭环自我提升系统:
- 新数据 → 更新模型;
- 新模型 → 采集更高质量数据;
- 不断往复,像涡旋般向更高智能演化。
通过Tree GRPO更新代理策略。将化身代理视为具有参数θ的参数化模型πθ(at|st),该模型生成一组可用动作{at,i}基于当前状态st,G i=1,GRPO[31]损失可以在每个节点5预打印时重新用于这组操作。
树形结构的经验数据:
03
实验设计与结果分析
这个自我演化体究竟有多能打?
当 SEEA-R1 在理论上构建起一套闭环自我演化机制时,接下来的问题自然是:这套系统,能否实打实地跑得动、跑得好、跑得远?
为了回答这个问题,研究团队精心设计了一组实验,既覆盖了传统评估环境,也引入了真实世界更具挑战性的泛化测试。正是在这些严苛条件下,SEEA-R1 展现出了其独特的韧性和智慧。
实验舞台一:ALFWorld——厨房里的全能挑战者
ALFWorld 是一个知名的虚拟家庭环境模拟平台,在这里,智能体需要像一个菜鸟新手一样完成诸如“捡起物体”、“加热食材”、“把东西放进水槽”等日常任务,但它必须自己去“看”“想”“干”。
这个环境要求智能体具备:
- 精准的视觉感知(识别出哪是西红柿、哪是微波炉);
- 合理的动作规划(先热后放,而不是反着来);
- 高效的多步执行策略。
在实验中,研究者分别测试了两种设定:
在两种模式下,SEEA-R1 都大显身手,刷新了多个关键任务的成功率记录。
实验舞台二:EmbodiedEval——陌生领域的生存测验
但现实世界不会总让你在熟悉的厨房里玩耍。
于是,研究者引入了 EmbodiedEval,一个针对具身智能体泛化能力的评估平台,包含高达 125 个完全未见过的 3D 场景,涵盖:
- 属性问答(识别物体的特征);
- 空间推理(判断哪个更靠近);
- 导航任务(走向目标);
- 人机社交互动……
在这些任务中,智能体不能再“死记硬背”,而是真正考验其对任务本质的理解与泛化能力。
指标怎么设?让成功率说话
为了公平评估不同模型的表现,实验主要采用“平均成功率”指标——也就是测试集上完成任务的比例。这个指标覆盖了复杂任务中的多轮交互,强调“真正把事做完”而非中途表现。
所有模型的生成任务都在温度设为 0 的解码下进行,并且每道任务都提供一个 one-shot 示例提示,保证模型知道它要干什么。
成绩揭晓:SEEA-R1 打败了谁?
多模态任务表现
在 ALFWorld 的视觉+文字(MLLM)任务中,SEEA-R1 以 36.19% 的成功率 一举超越 GPT-4o(24%)、Qwen2.5-VL(11%)和 MiniGPT-4(16%)。相比之下,GPT-4o 已经是业界顶流选手,而 SEEA-R1 几乎领先整整一个身位!
文本任务表现
在没有图像的纯语言任务中,SEEA-R1 同样表现抢眼,成功率高达 84.3%,与 GPT-4o 处于同一水准,同时平均完成任务所需步数更少,更高效。
消融实验:奖励模型到底能不能自己学好?
图4:SEEA-R1在ALFWorld上使用不同优化算法进行训练迭代的性能比较,附录中提供了更详细的数字。
为了验证 MGRM(自训练奖励模型)的效能,团队分别构造了三种情境。
使用环境的真实奖励(GT):性能最优,作为“黄金参考线”;
使用未训练的 MGRM(冻结状态):一开始靠运气跑得不错,但很快就性能滑坡;
使用自演化训练后的 MGRM:表现稳步爬升,几乎接近 GT 奖励效果。
这个实验传递出一个重要信号:SEEA-R1 的奖励模型不仅可以“自学成才”,而且不再需要依赖环境的真值信号。这使得它更具现实部署的可能性。
图5:SEEA-R1在不同奖励配置下的成功率比较。
泛化测试结果:在陌生世界照样生存
在 EmbodiedEval 的 OOD 测试集中,SEEA-R1 同样小步快跑,取得了 19.88%的总体成功率,明显优于:
- GPT-4o(25.00%,但依赖外部任务信息优化);
- Qwen2.5-VL(18.29%);
- 以及使用 SFT 或 DPO 微调的同类方法(均为 16.77%)。
尤其值得一提的是,在空间推理任务(SpatialQA)中,SEEA-R1 以 32.69% 的成绩表现出色,显示出强大的“见招拆招”能力。
04
技术亮点与创新价值
让“自我进化”不再是口号,而是方法
当我们谈论“具身智能体”的能力进化时,关键不仅仅在于它做没做对一件事,而在于它是否“知道为什么做得对”。SEEA-R1 的闪光点,正是在于让智能体从“会执行”迈向“会反思”,并建立起能不断自我修正、自我提升的底层机制。
从稀疏到稠密:每一步都能“算账”的奖励机制
传统强化学习中的一大顽疾,是奖励信号的稀疏性。想象你指导一个机器人完成一个八步任务,却只在最后才告诉它“你成功了”或“你失败了”,那前七步它完全无法知道该怎么改进。
SEEA-R1 采用 Tree-GRPO + MCTS 的结构化探索策略,彻底打破了这种“瞎子摸象式训练”。
每一个动作的价值不再是模糊的整体评分,而是通过动作值 Q(st, at)进行精确估计;再借由蒙特卡洛树搜索(MCTS)引导多个路径模拟,把最终结果“反向传播”给每个中间步骤。
这种结构下,智能体在执行过程中就能获得“过程奖励”,知道哪些行动走在正确轨道上——仿佛有人一路在旁边悄声提醒:“你刚刚那一步不错,继续走这条路。”
说它是“稠密化奖励”的里程碑级机制,一点不为过。
脱离手工奖励:MGRM 带来的泛化革命
另一大技术亮点,则藏在 MGRM 这个名不见经传的模块里。
以往的奖励系统往往依赖人工设计规则,例如“移动物体得 +1 分、放错地方扣 1 分”,不仅逻辑粗糙,还在环境变更时彻底失效。比如你教机器人煎蛋,但它却学不会煮面,因为后者没写进奖励规则里。
而 MGRM(Multi-modal Generative Reward Model)颠覆了这种方式。它由多模态语言模型驱动,接受图像+文本+历史轨迹为输入,自动生成结构化奖励判断:
这意味着奖励不再依赖环境给予,而由模型自身“理解”任务意图后做出评估。更重要的是,这种结构允许模型跨任务泛化,从“热番茄”推广到“冷鸡蛋”或“打扫茶几”,无需新增奖励函数。
MGRM 实质上是把“价值评判”这件事交给模型自己完成,从而彻底解耦训练过程与环境结构。这种可迁移性,是实现通用智能代理不可或缺的一环。
长时、多模态、闭环:真正意义上的“自我进化系统”
SEEA-R1 不只是几个巧妙组件的拼接,更是一套有生命力的“闭环成长机制”。
在每一轮迭代中,数据由 MCTS 主导生成,模型使用这些数据完成策略更新与奖励更新,然后再返回去指导下一轮数据探索。这个流程,就像生物体中的“神经系统 + 感官系统”的协同进化:
- 感官(MCTS)决定下一步的感知与交互;
- 大脑(策略模型)优化认知反应策略;
- 情绪(奖励模型)指导价值判断;
- 整个循环构成了一个智能体“自己训练自己”的完整生命周期。
更难能可贵的是,这一切不仅在单模态语言任务中成立,还在带视觉输入的多模态任务中表现优异——SEEA-R1 不仅能听、能说,还能看、能动,并且能在这些感知维度中统一完成自我演化。
与其说这是一个模型,不如说这是一种可复制、可扩展的具身智能生长方式。SEEA-R1 所开辟的路径,很可能就是未来 AGI(通用人工智能)迈向现实世界的必经之路。(END)
|
关于波动智能———— 波动智能旨在建立一个基于人类情绪与反应的真实需求洞察及满足的价值体系,融合人工智能与心理学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发了面向社交、电商等场景的多模态情绪识别引擎、情绪标签系统及情绪智能推荐算法,形成从情绪采集、建模到商业转化的完整解决方案。波动智能提出“情绪是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到情感驱动的产业范式升级。 |
亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}