摘要:视觉-语言-动作(VLA)模型的出现标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,将视觉-语言模型(VLM)从被动的序列生成器重新定义为在复杂动态环境中进行操作和决策的主动智能体。本综述深入探讨了先进的VLA方法,旨在为该领域提供清晰的分类体系以及对现有研究的系统性、全面性综述。文中全面分析了VLA在不同场景下的应用,并将VLA方法分为多个范式:基于自回归的方法、基于扩散模型的方法、基于强化学习的方法、混合方法以及专用方法;同时详细探讨了这些方法的设计动机、核心策略和实现方式。此外,还介绍了VLA研究的基础数据集、基准测试平台和仿真平台。基于当前VLA领域的发展现状,综述进一步提出了关键挑战和未来发展方向,以推动VLA模型和通用机器人技术的研究进展。通过综合分析300多项最新研究成果,本综述勾勒出这一快速发展领域的轮廓,并强调了将影响可扩展、通用VLA方法发展的机遇与挑战。
1 引言
机器人技术长期以来一直是科学研究的重要领域。从历史发展来看,机器人主要依赖预编程指令和人工设计的控制策略来完成任务分解与执行。这些方法通常应用于简单、重复性的任务,例如工厂装配线作业和物流分拣。近年来,人工智能技术的快速发展使研究人员能够利用深度学习在多种模态(包括图像、文本和点云)下的特征提取和轨迹预测能力。通过整合感知、检测、跟踪和定位等技术,研究人员将机器人任务分解为多个阶段,以满足执行要求,从而推动了具身智能和自动驾驶技术的发展。然而,大多数此类机器人仍以孤立智能体的形式运行,专为特定任务设计,缺乏与人类和外部环境的有效交互。
为解决这些局限性,研究人员开始探索融合LLM和视觉-语言模型(VLM),以实现更精准、灵活的机器人操作。现代机器人操作方法通常利用视觉-语言生成范式(如自回归模型或扩散模型),结合大规模数据集和先进的微调策略。我们将这类模型称为VLA基础模型,它们显著提升了机器人操作的质量。对生成内容的细粒度动作控制为用户提供了更大的灵活性,释放了VLA在任务执行中的实际应用潜力。
尽管VLA模型前景广阔,但针对纯VLA方法的综述研究仍然稀缺。现有综述要么聚焦于VLM基础模型的分类体系,要么对机器人操作领域进行整体的宽泛概述。首先,VLA方法是机器人领域的新兴方向,目前尚无成熟的方法体系或公认的分类标准,这使得对这些方法进行系统性总结面临挑战。其次,当前的综述要么基于基础模型的差异对VLA方法进行分类,要么对机器人应用领域进行全历史范围的全面分析,往往侧重于传统方法而忽视新兴技术。虽然这些综述提供了有价值的见解,但它们对机器人模型的探讨往往浅尝辄止,或主要聚焦于基础模型,在纯VLA方法的研究综述方面存在明显空白。
在本文中,我们对VLA方法及相关资源进行了深入研究,针对现有方法提供了聚焦且全面的综述。我们的目标是提出清晰的分类体系,系统总结VLA研究成果,并阐明这一快速发展领域的发展轨迹。在简要概述LLM和VLM之后,我们重点关注VLA模型的策略方法,突出以往研究的独特贡献和显著特征。我们将VLA方法分为五类:基于自回归的方法、基于扩散模型的方法、基于强化学习的方法、混合方法以及专用方法,并详细分析了各类方法的设计动机、核心策略和实现机制。如图2所示,我们展示了这些方法的VLA框架结构。我们还探讨了VLA的应用领域,包括机械臂、四足机器人、人形机器人和轮式机器人(自动驾驶车辆),全面评估了VLA在不同场景下的部署情况。鉴于VLA模型对数据集和仿真平台的高度依赖,我们对这些资源进行了简要概述。最后,基于当前VLA领域的发展现状,我们指出了关键挑战,并概述了未来的研究方向(包括数据局限性、推理速度和安全性等方面),以推动VLA模型和通用机器人技术的发展。
本综述的整体结构如图1所示。首先,第2节概述了VLA研究的背景知识。第3节介绍了机器人领域现有的VLA方法。第4节阐述了VLA方法所使用的数据集和基准测试平台。第5节和第6节分别讨论了仿真平台和机器人硬件。第7节进一步探讨了基于VLA的机器人方法面临的挑战和未来发展方向。最后,我们对全文进行总结,并对未来发展提出展望。
综上所述,本文的贡献如下:
-
提出了结构清晰的纯VLA方法分类体系,根据方法的动作生成策略对现有方法进行分类。这一分类体系有助于理解现有方法,并突出该领域的核心挑战。 -
综述强调了各类方法和技术的显著特征与方法创新,为理解当前方法提供了清晰视角。 -
全面概述了用于训练和评估VLA模型的相关资源(数据集、基准测试平台和仿真平台)。 -
探讨了VLA在机器人领域的实际影响,指出了现有技术的关键局限性,并提出了未来可能的探索方向。
2 背景知识
视觉-语言-动作(VLA)模型的出现标志着通用具身智能研究取得了重大进展。传统机器人系统通常依赖孤立的感知流水线、人工设计的控制策略或特定任务的强化学习方法。尽管这些方法在受限环境(如工厂车间或实验室)中表现良好,但在动态、非结构化环境中的泛化能力较差。现代机器人能够通过计算机视觉模型“观察”世界,通过大型语言模型“理解”语言,并通过控制器或习得的策略“执行”动作;然而,如何将这些能力整合到一个连贯、统一的系统中,仍是一个关键挑战。VLA模型通过提供一个统一的框架,将语言与感知相结合,并将其映射为可执行的动作,从而解决了这一挑战。
2.1 早期阶段:LLM/VLM基础模型
单模态建模的突破为多模态融合奠定了方法和工程基础。在计算机视觉领域,卷积神经网络(如AlexNet、ResNet)建立了从局部卷积到深度残差学习的表征范式,而ViT进一步推动了这一领域的发展。ViT将自注意力机制引入图像领域,显著提升了模型的迁移能力和泛化能力。在自然语言处理领域,Transformer架构支持大规模预训练和对齐技术,催生了BERT、GPT、T5和GPT-4等模型,这些模型具备强大的推理能力、指令跟随能力和上下文学习能力。与此同时,强化学习在策略优化和序列决策方面取得进展,从DQN、PPO发展到决策Transformer,为通过序列建模实现控制提供了统一视角。
在此背景下,VLM成为连接单模态学习和具身智能的关键桥梁。早期方法(如ViLBERT、VisualBERT)采用双流或单流Transformer对图像和文本进行对齐与融合,而对比学习方法(如CLIP)则将大规模图像-文本对映射到共享嵌入空间,实现零样本和少样本识别与检索。近年来,基于指令微调的、以对话为中心的多模态模型(如BLIP-2、Flamingo、LLaVA)显著增强了开放式跨模态理解、细粒度接地和多轮推理能力,为视觉-语言-动作(VLA)系统的发展奠定了基础。
2.2 当前阶段:VLA模型的发展
2.2.1 从LLM/VLM到VLA模型
沿着这一发展轨迹,研究自然地向VLA融合方向推进,将视觉感知、语言理解和可执行控制整合到单一的序列建模框架中。典型的设计思路是将图像和指令编码为前缀或上下文 tokens,将机器人状态和感官反馈作为状态 tokens 注入模型,然后通过自回归方式生成动作 tokens,以产生控制序列,从而形成“感知-语言-动作”闭环。与传统的感知、规划和控制流水线相比,VLA实现了端到端的跨模态对齐,并对目标、约束和意图进行统一处理。它继承了VLM在语义和指令泛化方面的优势,同时通过显式的状态耦合和动作生成,增强了对环境干扰和长时程任务的鲁棒性。这一从单模态到多模态,再到“多模态 可执行控制”的发展过程,为构建既能“观察”和“理解”,又能“行动”的系统奠定了方法基础。
2.2.2 数据与仿真的支撑作用
机器人领域中视觉-语言-动作(VLA)模型的发展高度依赖高质量数据集和能够捕捉真实世界场景复杂性的逼真仿真器。近年来的机器人方法通常基于深度学习和数据驱动;因此,数据集的收集和标注对推动该领域的发展起着关键作用。部分数据集通过真实世界场景收集,这需要大量的人力和财力投入。为应对这些挑战,研究人员还利用互联网上的大规模人类操作视频作为泛化数据集,为VLA模型训练提供辅助监督。尽管做出了这些努力,数据收集仍然成本高昂,标注工作耗时费力,且长尾边缘情况往往代表性不足。另有部分数据集通过机器人仿真器生成,这种方式便于收集大规模标注数据。仿真器提供多样化且可控的环境、灵活的传感器配置、逼真的运动学模型以及交互式静态和动态场景,既支持数据收集,也支持模型评估。代表性数据集包括Open X-Embodiment(OXE),该数据集整合了来自21个机构的22个机器人数据集,涵盖527项技能和160,266个任务;还有BridgeData,包含跨多个领域10个环境中的71项任务。这些资源实现了数据格式的标准化,从而促进VLA研究的快速发展和可复现性。诸如THOR、Habitat、MuJoCo、Isaac Gym和CARLA等仿真器提供了可扩展的虚拟环境,能够生成多模态标注(包括动作轨迹、物体状态和自然语言指令)。这些数据集和仿真平台共同缓解了真实世界机器人数据稀缺的问题,加速了VLA模型的训练和评估进程。
2.3 未来方向:迈向通用具身智能
VLA模型处于视觉、语言和动作交叉领域的研究前沿。它们基于感知和推理基础模型的突破,强调人机交互和任务执行能力,并将这些能力拓展到物理世界中。通过整合视觉编码器的表征能力、大型语言模型的推理能力以及强化学习和控制框架的决策能力,VLA模型在弥合“感知-理解-动作”鸿沟方面具有巨大潜力。尽管面临可扩展性、泛化性、安全性和真实世界部署等方面的挑战,VLA仍被广泛认为是具身人工智能的关键前沿领域。虽然VLA在视觉-语言-动作交互方面已取得显著成功,并受益于大规模语言模型的发展,但在具身智能领域尚未实现完全的通用性。通用具身智能认为,类人智能行为不仅依赖认知处理,还依赖物理身体、环境感知和反馈机制,从而能够与外部世界进行交互。为满足不同任务的需求,通用具身智能可以通过多种类型的机器人实现,例如用于家庭应用的人形机器人、具备灵活操作能力的装配机器人以及具有专用功能的仿生机器人。显然,通用具身智能有望使人工智能系统能够在不同环境中执行更广泛的任务。当前,VLA正朝着通用具身智能的愿景发展,并在实现这一目标方面具有巨大潜力。
3 视觉-语言-动作模型
近年来,在多模态表征学习、生成建模和强化学习的推动下,视觉-语言-动作(VLA)模型经历了快速且系统性的发展。为追溯这一发展历程,本节综述了VLA的主要方法范式,包括基于自回归的建模方法、基于扩散模型的方法、强化学习策略以及混合或专用设计。图3展示了这些范式发展的树状图,每个分支突出了相应分类下的代表性研究成果。该分类体系按时间顺序组织,强调了方法创新如何逐步拓展VLA模型的能力。
3.1 VLA研究中的基于自回归的模型
在视觉-语言-动作(VLA)任务中,基于自回归的模型是一种经典且有效的序列生成范式。这类模型将动作序列视为时间依赖过程,在先前上下文、感知输入和任务提示的条件下,逐步生成动作。随着Transformer架构的快速发展,近年来的VLA系统证明了该方法的可扩展性和鲁棒性。表1总结了该方向的代表性研究成果,共同凸显了基于自回归的建模范式在VLA研究中的多功能性和通用性。
3.1.1 基于自回归的通用VLA方法
通用VLA智能体的研究将感知、任务指令和动作生成整合到自回归序列建模中。通过对多模态输入进行token化,这些模型能够在不同任务间实现逐步动作生成。
早期研究(如Gato)展示了对异质模态进行token化以实现联合训练的可行性。随后的规模化研究(如RT-1/RT-2)利用大规模真实世界数据集和网络级预训练,而PaLM-E则将预训练语言知识整合到具身控制中,确立了自回归Transformer作为实用统一模型的地位。
为解决具身碎片化问题,Octo、LEO和UniAct等框架将视觉-语言模态与通用动作抽象对齐,以实现跨平台兼容性。近年来的研究重点关注推理整合和效率优化。目前,模型已能够将动作生成与语言推理相结合,并通过自适应提示实现长时程规划。NORA和RoboMM等轻量级设计则解决了部署约束问题。
总体而言,通用VLA智能体的研究已从早期的统一token化,发展到大规模真实世界训练和语义接地,朝着跨平台通用性、推理整合和效率导向设计的方向迈进。这一发展轨迹反映了研究从概念验证演示向强调可扩展性、语义推理和可部署性的系统转变。表1(A)总结了代表性的基于自回归的通用智能体及其关键贡献。然而,安全性、可解释性以及与人类价值观的对齐等问题在很大程度上仍未得到解决,为未来研究留下了广阔空间。
3.1.2 结合LLM的自回归推理与语义规划
LLM的整合使其从被动的输入解析器转变为VLA系统中的语义中介,为长时程和组合任务提供基于推理的控制。本节综述了基于LLM的推理从语义中介到分层规划器和平台级协调器的发展历程。
为在VLA模型中引入推理能力,Inner Monologue提出了“自我对话”式推理机制,包括动作前规划和动作后反思。Prompt-to-Walk、RoboFlamingo和RoboMM等扩展研究展示了语言表征在运动和操作任务中的应用。
随后的方法通过反馈和分层规划增强了适应性。Interactive Language实现了实时修正功能,Open-Ended Instructable Agents利用情景记忆,而Hi Robot则采用分层规划来处理长指令任务。MissionGPT、Mobility VLA和NORA强调轻量级部署和基于对话的适应性。
分层框架将语义规划与控制器相结合,以实现灵活操作。InSpire、From Foresight to Forethought和CoT-VLA强调运行时稳定性和思维链机制。
基于自回归的推理架构通常将输入分段为序列,并利用这些tokens进行进一步推理。这些模型能够处理不同长度的输入,其强大的上下文学习能力使其能够在统一结构下处理不同模态。针对无人机的专用系统(如CognitiveDrone和UAV-VLA)突出了空中导航和基于卫星信息的规划能力。OneTwoVLA等其他研究则解决了自适应推理-动作切换和异质控制空间抽象的问题。
与上述方法不同,系统化和平台化的研究努力已开始整合这些进展。Gemini Robotics和Agentic Robot将LLM定位为具身流水线的核心协调器,而π0.5和FAST则致力于开放式世界的可扩展性和高效token化。VLA Model-Expert Collaboration和LLaVA等支持性研究探索了协作机制和辅助任务,以改进VLM到VLA的迁移。VLA中基于LLM的推理已从语义中介发展到交互式和分层规划、跨模态扩展以及集成平台。
尽管VLA中基于LLM的推理已从语义中介发展为交互式和分层规划器、跨模态扩展系统以及集成平台,但仍存在一些持续的挑战,包括幻觉控制、多模态对齐、推理稳定性和实时安全性。表1(B)总结了代表性研究及其贡献。
3.1.3 自回归轨迹生成与视觉对齐建模
自回归轨迹建模增强了感知-动作映射,同时确保视觉-语言语义对齐。这些模型在多模态观测的条件下解码运动轨迹或控制tokens,为接地指令跟随和动作执行提供统一机制。
早期研究(如LATTE)展示了将语言直接映射到轨迹的可行性,为多模态扩展提供了启发。通过大规模预训练,VIMA和InstructRL证明了对语言、视觉和动作进行联合token化能够支持强大的跨任务泛化能力,尽管这类模型通常仅在仿真环境中有效。同时,MOO和基于GPT的方法利用预训练视觉-语言骨干网络实现开放式世界泛化和轻量级轨迹生成,表明语义先验知识可以减少对机器人专用预训练的依赖。
另一类研究方向探索视频预测和世界建模。GR-1/2将视频生成预训练迁移到机器人领域,而CronusVLA和WorldVLA则改进了时间一致性。TraceVLA和Uni-NaVid进一步引入长时程提示机制,共同推动研究从短时程解码向预测性环境建模转变。
基于自回归的方法已应用于多种机器人形态,从四足运动到双臂操作,展示了视觉-语言-动作框架的灵活性。OpenVLA等大规模研究进一步凸显了跨平台泛化和高效适应能力,而基于潜在运动token的方法则为轻量级预训练策略提供了思路。
除操作任务外,自回归轨迹生成已扩展到自动驾驶领域。近年来的模型通过将视觉和语言与轨迹预测对齐,实现了闭环控制,且通常无需高清地图或激光雷达。类似原理也已应用于移动操作和无人机规划,突显了这些方法在不同机器人平台上的通用性。
研究人员还将自回归框架扩展到细粒度感知和更丰富的模态。近期模型强调通过稳健的预训练流水线实现精准操作,而触觉-语言-动作融合则支持富含接触的交互。同时,利用3D/4D感知将空间结构嵌入自回归解码的研究进一步拓展了多模态研究领域。
自回归轨迹生成已从直接的语言-轨迹映射,发展为涵盖多模态预训练、基于视频的世界建模、特定形态架构和跨模态感知的广泛体系(见表1(C))。这些进展展示了自回归作为VLA统一机制的可扩展性和通用性。然而,长时程稳定性、噪声输入下的语义接地以及物理机器人上的高效部署等挑战仍然存在。未来研究应优先考虑预测建模与低层控制之间的稳健闭环整合,并探索自回归策略与LLM规划器等高层推理模块之间的协同作用,以逐步实现可靠、通用的具身智能。
3.1.4 自回归VLA中的结构优化与高效推理机制
在自回归VLA研究中,结构优化和高效推理对于实现可扩展部署和实时控制至关重要。除准确性外,核心挑战在于如何减少计算冗余、缩短推理延迟,并在不同机器人场景中保持鲁棒性。
一个重要研究方向是分层和模块化优化。早期研究(如HiP)表明,将任务分解为符号规划、视频预测和动作执行,能够使自回归模型实现长时程推理。后续设计(包括高效观测骨干网络、动作分块、轨迹感知注意力和频率分离)进一步证明,模块化结构能够在保持泛化能力的同时显著减少计算量。
另一类研究侧重于动态和自适应推理。DeeR-VLA等框架根据任务复杂性实现解码的早期终止,而FAST等token高效设计将长动作序列压缩为变长token。这些方法共同表明,自适应计算能够在准确性损失最小的情况下提高实时响应能力。
第三类研究强调轻量级压缩和并行化。量化和层跳过方法降低了精度要求,并动态激活部分层,显著减少了计算量。同时,解码和冗余减少策略在无需重新训练的情况下加速了推理,表明架构压缩与自适应推理可以互补。
压缩和并行化方法包括量化和层跳过,这些方法大幅减少了计算量;此外,并行解码和冗余减少策略在无需重新训练的情况下加速了推理。
研究人员还通过传感器融合和时间复用追求效率提升。基于体素的空间建模、自适应键值缓存和感知自适应等领域专用优化,在减少冗余计算的同时提高了鲁棒性。
值得注意的是,多项研究将效率与多模态推理相结合。OTTER将语言感知注入视觉编码,而ChatVLA采用带有混合专家路由的分阶段耦合。从基于扩散的目标生成、量化到用于超长时程的分层反馈等其他进展,表明架构改进可以在效率和可扩展性之间取得平衡。
总之,自回归VLA模型中的结构优化和高效推理已从早期的分层分解策略,发展到自适应计算、轻量级压缩、缓存机制和多模态感知整合(见表1(D))。这些方法解决了长序列依赖和计算冗余问题,在基准测试和真实世界部署中均取得了显著成效。未来研究应致力于硬件感知协同优化、智能调度和稳健安全机制,以确保在实现通用具身智能的过程中取得可扩展且可靠的进展。
3.1.5 讨论
创新点:基于自回归的模型通过在可扩展Transformer架构中整合多模态感知、语言推理和序列动作生成,推动了视觉-语言-动作研究的重大创新。它们支持能够跨任务泛化的通用智能体,通过整合LLM实现语义规划,并将轨迹生成扩展到长时程和多模态场景;token压缩、并行解码和量化等结构优化方法提高了真实世界部署的效率。
局限性:自回归解码会导致误差累积和延迟问题,多模态对齐在噪声或不完整输入下可能不稳定,且扩展大型模型需要大量计算资源和数据。此外,基于推理的方法仍面临幻觉、稳定性和可解释性等挑战,而效率优化机制往往需要在准确性或通用性方面做出权衡。解决这些问题需要加强推理与控制之间的耦合,提高在真实世界不确定性下的鲁棒性,并采用硬件感知优化策略,在可扩展性和实际部署之间取得平衡。
3.2 VLA研究中的基于扩散模型的方法
扩散模型(包括流匹配、变分自编码器等)已成为生成式人工智能领域的变革性范式,在VLA框架中展现出实现具身智能的巨大潜力。本节综述了扩散模型在VLA系统中的发展历程,重点关注三个关键维度。代表性研究成果总结于表2。
3.2.1 基于扩散模型的通用VLA方法
将扩散模型整合到VLA系统中,使机器人动作生成从确定性回归转变为概率性生成策略。通过将动作生成构建为条件去噪过程,基于扩散模型的方法能够自然地建模多样化的动作分布,从相同观测中生成多个有效轨迹。
一个重要发展方向是引入更丰富的表征结构。几何感知方法将SE(3)约束嵌入扩散过程,超越欧几里得空间,在3D环境中联合优化抓取和运动,确保物理上一致的动作。同时,将策略学习重新解释为视频生成的研究利用视频的时间丰富性进行长时程规划和跨模态接地。
RDT-1B等规模化研究展示了轨迹级扩散模型,通过时间和环境条件实现双臂操作中的零样本泛化。通过跨时间步的统一速度场或结合历史条件与高效缓存的实时部署方法,解决了时间一致性问题。
这些进展标志着三个转变:从确定性生成到概率性生成、从欧几里得表征到几何感知表征、从监督范式到自监督范式。这种向生成式建模的重构支持多任务泛化、少样本适应和自然语言交互。表2(A)总结了架构选择和训练策略。然而,在动态环境变化下,时间一致性仍然不够稳定。
3.2.2 基于扩散模型的多模态架构融合
Transformer在VLA系统中的整合推动了视觉、语言和动作在单一框架中的统一建模,超越了模块化流水线,捕捉具身智能中的复杂相互依赖关系。
在这一转变过程中,将Transformer与扩散模型相结合被证明具有特别的变革性,因为注意力机制能够自然地补充生成式建模。Dita和扩散Transformer策略等大规模框架表明,将基于注意力的架构扩展到小型动作头之外,能够显著改进连续动作建模,自注意力归纳偏置与机器人行为的组合性高度契合。
核心挑战不在于架构规模化,而在于如何在融合异质模态的同时保留其独特属性。视觉、语言和本体感知在时间粒度、语义和处理需求方面存在差异——这既为获取更丰富上下文提供了机会,也带来了稀释模态特定优势的风险。为解决这一问题,M-DiT等token空间对齐策略将不同信号映射到统一表征中,使条件扩散Transformer能够灵活支持目标和观测的任意组合,这是迈向通用机器人技术的关键一步。
ForceVLA等领域专用设计将力感知视为一级模态,利用力感知混合专家将触觉反馈与视觉-语言嵌入相结合,显著改进了富含接触的操作。
近期进展在扩散策略中整合了显式推理。Diffusion-VLA引入自生成推理模块以产生符号表征,而CogACT利用语义场景图,实现感知、推理和控制的统一。
预训练模型利用包括将图像编辑模型重新用于零样本操作,以及PERIA等联合微调策略。通过Chain-of-Affordance的结构化分解和π0等流图方法,在复杂环境中表现优于端到端方法。
综上,这些进展(表2(B))表明该领域正从单一架构适配向融合结构化推理、多传感输入和显式知识表征的认知启发框架转变。这一转变标志着研究从纯粹的数据驱动端到端学习,向更具可解释性和泛化能力的设计方向发展,尽管进展仍受到高计算需求和数据集多样性有限的制约。
3.2.3 基于扩散模型的VLA应用优化与部署
将基于扩散模型的VLA系统从实验室原型转变为真实世界部署,是一项重大挑战。应对这一挑战需要在效率、适应性和稳健性三个相互关联的方面取得进展。近期研究表明,进展不再依赖于无差别地扩大模型规模,而是取决于合理的优化策略、认知启发的架构和实用的部署机制。
效率优化已成为核心研究主题。尽管扩散模型资源消耗大,但TinyVLA和SmolVLA等轻量级设计表明,通过LoRA等对预训练骨干网络进行调整,能够将训练成本降至单GPU规模,同时不牺牲性能。VQ-VLA等补充策略采用向量量化动作token器缩小仿真-真实差距,表明效率提升可以与稳健性提升相结合。这些研究共同反映了向“智能稀疏性”的范式转变,即优先考虑计算效率而非蛮力规模化。
与此同时,任务适应性已成为先进VLA系统的标志性特征。在灵活操作领域,DexVLG等大规模精选数据集实现了强大的零样本性能;而在移动操作领域,AC-DiT等框架通过运动-身体条件实现感知与驱动的统一。总体而言,研究趋势是在通用架构与深度领域专业化之间取得平衡,在嵌入任务特定归纳偏置的同时保留广泛的多模态能力。
架构创新代表了下一个前沿方向。MinD和TriVLA等双系统和三系统设计展示了如何将认知原理应用于机器人技术。MinD将用于战略规划的低频视频预测与用于反应式控制的高频扩散策略相结合,而TriVLA则将视觉-语言推理、动态感知和策略学习明确分离为协同模块。这些认知启发架构以交互频率(如36Hz)运行,不仅提高了任务性能,还增强了系统的可解释性和可维护性——这是工业部署的关键要求。
除效率和设计外,运行时稳健性已成为真实世界应用的决定性因素。BYOVLA等轻量级干预策略在推理时动态编辑无关视觉区域,无需微调,从而缓解了不可预测环境中的稳健性问题。同时,DreamVLA等自反思架构引入了分层错误处理机制,包括推理增强模块、错误感知层和专家适配器。这些策略共同表明,研究正朝着“防御性人工智能”方向发展,既重视原始任务性能,也强调韧性和可靠性。
基于扩散模型的VLA系统应用领域已迅速扩展。在自动驾驶领域,DriveMoE采用场景和技能专用混合专家架构实现最先进的闭环控制;而在人形机器人领域,DreamGen利用视频世界模型,从单任务遥操作泛化到数十种新行为。EnerVerse和VidBot通过自回归视频扩散和可用性学习扩展了这一范式,突显了基于视频的世界模型在规划中的潜力。这些进展表明,研究正从任务特定原型向多功能、跨领域系统转变。
基础模型的雄心勃勃研究进一步凸显了该领域的发展轨迹。FP3引入了基于60,000条轨迹预训练的大规模3D策略模型,而GR00T N1将多模态Transformer架构整合到人形基础系统中。与自然语言处理中的大型语言模型类似,这些方法旨在为机器人技术提供通用先验知识,但同时也必须解决安全性、实时控制和物理可靠性等问题——这些问题在文本领域不太突出。
泛化和微调策略对于推动基于扩散模型的VLA系统走向真实世界部署仍然至关重要。近期研究强调了多个互补方向:ObjectVLA和SwitchVLA证明了开放式世界物体操作和执行感知任务切换的可行性,强调了动态环境中的灵活性。同时,LangToMo和Evo0等方法引入了新的中间表征和几何感知插件模块,表明结构化感知先验可以显著增强跨任务适应性。在优化方面,OFT等系统化微调框架整合了并行解码、动作分块和连续表征学习等技术,推动该领域从探索性概念验证向工程学科转变。
综上,这些策略表明,实现稳健泛化需要架构创新、高效模型设计、自适应任务专业化、认知启发架构和稳健运行时策略,如表2(C)所示。然而,挑战依然存在:安全关键场景的研究仍不够深入。弥合这些差距对于实现从实验原型到可靠、通用机器人系统的转变至关重要。
扩散模型在VLA系统中的应用正朝着更高效率、更强稳健性和更广通用性的方向发展。从基础动作生成建模到复杂多模态融合和实用部署优化,已形成全面的技术框架。但仍有问题亟待解决,未来发展趋势将继续致力于解决模型效率提升、泛化能力改进和实际部署性能优化等关键挑战。
3.2.4 讨论
创新点:基于扩散模型的方法从根本上将机器人控制重构为生成式建模问题。它们支持概率性动作生成、多模态架构融合和认知启发的部署策略,超越了确定性和模块化流水线。这些方法改进了轨迹多样性、几何接地和推理整合。此外,TinyVLA和SmolVLA等效率导向设计使真实世界部署变得日益可行。
局限性:然而,动态环境中的时间一致性仍然不够稳定;大规模扩散模型需要大量计算资源和数据集;在对抗性或不确定性条件下的安全关键可靠性研究尚不充分。此外,尽管多模态融合丰富了表征,但可能会稀释模态特定优势,而领域专用适配可能会降低迁移能力。解决这些挑战需要更高效、稳健的训练范式,更丰富的安全感知评估标准,以及更强的基础规模建模与实际部署约束之间的对齐。
3.3 VLA研究中的基于强化学习的微调模型
3.3.1 VLA研究中的基于强化学习的微调策略
基于强化学习的VLA方法将视觉-语言基础模型与强化学习相结合,以增强感知、推理和决策能力。通过利用视觉和语言输入,这些方法在交互式动态环境中生成上下文感知动作。它们已成为推进自动驾驶、机器人技术和更广泛具身智能系统的关键研究方向。近期进展表明,基于强化学习的VLA方法能够整合人类反馈、适应新任务,并优于纯监督范式。这些研究进展总结于表3。
早期方法通过引入强化奖励策略,利用大规模人类视频数据集或机器人操作数据集改进机器人操作技能。这些方法旨在研究预训练VLM在强化学习中的提示能力,表明即使是冻结模型也能通过提示嵌入学习支持高效的下游策略训练。VIP推导了与动作无关的自监督目标条件价值函数,生成平滑嵌入,并通过嵌入距离隐式评估价值。

与其他强化微调方法类似,部分方法利用语言和图像联合生成奖励代理,并通过自监督对比训练获取跨模态状态-语言表征。这些方法强调奖励感知表征的迁移能力,支持在稀疏奖励或复杂语言指令下的机器人学习。
此外,部分方法主要通过优化奖励函数或损失函数来改进策略学习。这些方法将语言模型作为奖励函数设计的中介,通过人类演示和VLM语义映射学习奖励代理。这种方法简化了奖励工程,同时通过RLHF可以进一步优化泛化性和可解释性。例如,Elemental在复杂操作任务中展示了快速定制任务需求和从有限样本中高效学习的能力。SafeVLA从安全角度探索VLA,解决了VLA在开放环境中部署的风险问题。它提出了一种约束学习对齐机制,在防止高风险行为的同时保持任务性能。该方法在VLA架构中引入安全评估网络以估计风险水平,并采用约束策略优化(CPO)框架在最大化策略奖励的同时确保安全损失低于预定义阈值。SafeVLA在多任务测试(包括操作、导航和处理任务)中显著减少了风险事件,尤其是在模糊自然语言指令增加策略不确定性的场景中,从而展示出卓越的安全性和稳定性。这项工作为VLA模型在真实世界应用中的部署提供了关键的安全机制。
与上述机械臂VLA模型不同,研究人员还探索了适用于四足机器人和人形机器人的VLA框架。这些机器人利用自然语言导航指令,重点关注轨迹预测、目标描述、避障和相关任务。例如,NaVILA通过单阶段RL策略微调VLA模型,以输出连续控制指令,能够适应复杂地形和动态变化的语言指令。相比之下,MoRE将多个低秩自适应模块作为不同专家整合到密集MLLM中,形成稀疏激活混合专家模型,随后将其作为Q函数,利用强化学习目标进行训练。LeVERB扩展了这一研究方向,提出了用于人形机器人全身控制(WBC)的分层VLA框架。与NaVILA类似,LeVERB将视觉-语言处理与动态级动作处理相结合,其中强化学习策略将潜在词汇表转换为高频动态控制指令,实现复杂的全身任务执行。
离线强化学习已被证明能够从混合质量数据集中推导稳健的策略模型。ReinboT是这一方法的典型代表,它应用强化学习的累积奖励最大化原则。通过预测捕捉操作任务细微差异的密集奖励,ReinboT增强了对数据质量分布的理解,从而使机器人能够在长期收益的指导下生成更稳健的决策动作。在线强化学习方法也在VLA领域得到广泛探索。例如,SimpleVLA-RL仅使用单条轨迹和二元结果级奖励(0/1)训练VLA模型。该方法无需依赖密集监督或大规模行为克隆数据集,但通过在环境中模拟基于规则的奖励信号,实现了与全轨迹监督微调(SFT)相当的性能。认识到仅使用离线或在线策略的局限性,ConRFT引入了一种混合策略,将两者相结合。其离线策略将行为克隆与Q学习相结合,从有限演示中提取策略并稳定价值估计;而在线策略引入一致性目标和人工干预机制,稳步改进策略性能,确保训练过程中的安全探索和样本效率。
在自动驾驶领域,VLA模型也利用强化学习改进在未见过场景中的驾驶性能。AutoVLA是这一方向的典型代表,它引入了一种具备推理和动作能力的自回归生成模型。该模型首先处理视觉输入和语言指令,然后通过推理微调生成可离散化的可行动作,这些动作可重构为连续轨迹。该模型采用两个微调步骤——思维链推理(Chain-of-Thought Reasoning)和GRPO,实现了最先进的性能。
值得注意的是,与需要大量参数(导致高计算和内存需求)的现有模型不同,部分研究人员在基于强化学习的VLA中探索了量化、剪枝和知识蒸馏等效率策略,通常结合PPO等算法。例如,RPD从VLA教师模型中蒸馏出学生模型以提高推理速度,而RLRC引入了一种新的压缩框架,包括结构化剪枝、基于SFT和RL的性能恢复以及量化。这些方法在保持原始VLA任务成功率的同时,减少了内存使用并提高了推理吞吐量。
3.3.2 讨论
创新点:基于强化学习的VLA微调策略利用视觉和语言信号生成密集、可迁移的奖励代理;将离线行为克隆与在线强化学习相结合,稳定了策略优化并增强了泛化能力。以安全为重点的方法也是一项重要进展,通过整合约束优化减少了开放世界部署中的高风险动作。此外,将强化驱动的VLA扩展到四足机器人、人形机器人和自动驾驶任务,突显了其在不同机器人形态中的通用性。
局限性:尽管取得了这些进展,基于强化学习的VLA的奖励工程往往仍然间接或存在噪声,导致学习效果欠佳;监督微调与探索之间的相互作用可能会阻碍训练稳定性;扩展到高维真实世界环境的计算成本高昂,需要大量硬件和数据资源。此外,尽管已提出安全感知策略,但在模糊或对抗性指令下确保可靠泛化仍然是一个未解决的挑战。解决这些问题需要更高效的奖励表征、稳健的样本高效训练范式,以及更丰富的评估基准(同时捕捉安全性和推理能力)。
3.4 其他先进研究
尽管自回归、扩散和强化学习仍是VLA模型设计的基础范式,但具身任务日益增长的复杂性和多样性推动了超越这些边界的方法发展。当前研究进展可分为五个关键方向:整合多种生成范式的混合架构、增强跨模态和空间理解的先进多模态融合、应对任务特定挑战的专用领域适配、在规模上统一感知-推理-控制的基础模型和大规模训练范式,以及强调效率、安全性和人机协作的实用部署策略。代表性研究成果总结于表4。
3.4.1 混合架构与多范式整合
随着具身操作任务的多样性和复杂性不断增加,仅依赖单一生成范式(无论是自回归、扩散还是强化学习)往往难以满足需求。因此,混合架构已成为一种有前景的解决方案,通过战略性地结合多种范式,利用它们的互补优势。这种方法的核心目标是整合连续动作生成的平滑性和物理一致性、离散推理的精确性以及动态真实世界环境所需的适应性。通过这种方式,混合系统为构建更强大、更多功能的VLA模型奠定了基础。
HybridVLA是一个典型示例,它在单一70亿参数框架中整合了基于扩散的连续轨迹生成和基于自回归的token级推理。这种设计利用扩散过程生成平滑且物理一致的运动,同时保留自回归模型固有的上下文推理能力。受认知科学启发的双系统理念也体现在近期研究中。Fast-in-Slow将低延迟执行模块嵌入到认知能力更强但速度较慢的VLM骨干网络中,实现了实时响应,同时保留了高层推理能力。类似地,RationalVLA通过可学习的潜在嵌入整合视觉-语言推理与低层操作策略,使模型能够过滤不可行指令并规划可执行动作。
混合设计的规模化也显示出巨大潜力。基于Transformer的扩散策略表明,十亿参数规模的架构能够有效结合扩散过程与注意力机制,通过捕捉更丰富的轨迹建模上下文依赖关系,超越传统U-Net设计。这一趋势指向下一代VLA系统——将自回归Transformer嵌入到基于扩散的规划器中,在实现更高质量运动生成的同时,获得更强的上下文感知能力。
除了个体创新外,OpenHelix等项目正致力于推动混合VLA设计的系统化。通过大规模实证评估,OpenHelix对不同推理-执行整合策略进行基准测试,并提供开源实现和设计指南。这一转变标志着该领域的成熟,有助于促进混合VLA开发的可复现性和标准化。这些研究进展总结于表4(A),概述了推动混合VLA架构发展的关键创新。
3.4.2 先进多模态融合与空间理解
在复杂环境中实现稳健操作,不仅需要简单的跨模态对齐,还需要能够捕捉细粒度语义和空间关系的结构化、任务感知融合机制。近期进展反映了研究方向的明确转变——从早期的特征拼接,转向明确建模几何、可用性和空间约束的架构。这些进展推动VLA模型朝着更丰富的空间接地和更可靠的非结构化3D感知环境动作生成方向发展。
CLIPort等早期研究奠定了基础,将视觉处理分解为用于物体识别的“什么”路径和用于动作定位的“哪里”路径。利用基于CLIP的表征,CLIPort从配对的图像-语言输入中生成抓取放置热图,展示了结构化视觉推理在语言条件操作中的优势。在此基础上,后续研究强调3D空间理解作为核心能力。VoxPoser在大型语言模型的指导下引入可组合3D价值图,将指令解释分解为目标理解和基于体素化场景表征的动作规划。这种模块化设计通过清晰分离语义解析和空间推理,增强了泛化能力。类似地,3D-VLA在生成式3D世界模型中整合了自回归语言建模和基于扩散的动作预测,实现了感知、语言和动作模态的连贯统一。
多视图感知挑战通过统一表征学习得到解决。RoboUniView采用多视图Transformer模块融合时间和空间线索,与单视图基线相比,显著改进了3D场景几何理解。相比之下,BridgeVLA将3D观测投影到多个2D视图中,并在统一2D热图空间中预测动作,突显了紧凑但空间接地表征的效率。为应对更复杂的场景,专门的空间推理方法应运而生。ReKep通过关系关键点图建模时空依赖关系,在精度关键任务中表现出色。RoboPoint预测可用性图(突出可行交互区域),为下游规划提供关键感知先验。GeoManip整合符号几何约束以指导动作生成,无需任务特定再训练,从而实现了强大的分布外泛化。
综上,这些研究勾勒出一条清晰的发展轨迹:从早期基于路径的2D融合,发展到整合空间接地、语义推理和动作生成的模块化3D感知架构。随着VLA系统越来越多地在无约束真实世界环境中运行,明确推理几何和可用性的能力将继续成为实现稳健、通用操作的决定性因素。表4(B)总结了这一发展过程。
3.4.3 专用领域适配与应用
VLA框架的通用性使其能够扩展到具有独特感知、推理和控制挑战的专用具身领域。这类适配不仅验证了VLA原则的通用性,还揭示了领域特定成功所需的架构和算法修改。从安全关键型机器人技术到纯数字交互,这些创新展示了VLA流水线对不同操作环境的适应性。
在自动驾驶等安全关键场景中,CoVLA提出了首个针对该领域的大规模VLA数据集,包含约50,000对语言指令和驾驶轨迹视频,涵盖各种城市场景。这项工作展示了如何将视觉-语言推理与连续控制策略相结合,以实现导航和避障。
VLA范式也已扩展到图形用户界面(GUI)交互领域,其中感知-动作循环在纯数字空间中运行。ShowUI采用视觉-语言-动作流水线处理屏幕元素,并生成点击、拖动和表单填写等动作的控制序列。其在GUI-Bench上的出色表现突显了VLA原则在非物理操作任务中的适用性。
人形机器人全身控制已成为另一个具有挑战性的领域。LeVERB提出了一种分层架构,其中视觉-语言策略从运动学演示中学习潜在动作词汇表,而强化学习控制层生成低层动态指令。这种两级设计弥合了语义-控制鸿沟,实现了超过150项任务的稳健仿真-真实迁移。类似地,Helix证明,单一统一策略网络能够习得多种人形机器人行为,从物体操作到跨机器人协作,无需任务特定再训练。
专用适配还针对大规模机器人协调和移动操作。AutoRT通过“观察-推理-执行”框架协调异构机器人群,将战略规划委托给PaLM-E和RT-2等VLM;而MoManipVLA通过基于航点的轨迹生成和双层运动优化,将固定基座VLA模型迁移到移动操作场景。
其他领域特定创新整合了物理推理或任务专用认知结构。物理接地VLA嵌入用于估计稳定性和接触点的模块,改进了复杂物理约束下的操作。CubeRobot将双循环VisionCoT和记忆流设计应用于魔方求解,在低复杂度和中等复杂度任务中实现接近完美的成功率,并在高难度场景中表现出色。
总体而言,这些领域驱动的适配展示了VLA架构的通用性,以及根据不同操作环境的特定需求定制感知-推理-控制流水线的重要性。它们还进一步证明了VLA模型作为统一具身智能框架的潜力,可跨越物理、数字和混合环境。这些专用适配总结于表4(C),强调了使VLA系统在不同具身领域取得成功的架构和算法创新。
3.4.4 基础模型与大规模训练
基础模型和大规模训练的兴起重塑了VLA研究的轨迹,实现了在任务、形态和环境间泛化的统一感知-推理-控制框架。通过利用大规模多模态数据集和可扩展架构,这一方向致力于构建具备广泛能力和高效适应能力的通用具身智能体。大规模预训练正日益成为下一代VLA系统的基础。近期基础模型为机器人技术提供了系统性研究,涵盖视觉-语言模型、策略模型和用于操作、导航和规划的跨模态对齐技术,特别关注VLA架构,将其分为感知对齐型、策略生成型和基于世界模型型,并指出了向紧密集成多模态接口发展的统一趋势。
大规模数据集对实现基础规模训练至关重要。DROID提供了超过150,000条轨迹,涵盖1,000多个物体和任务场景,包含RGBD、语言、低维状态和环境标签等多模态标注。General Flow框架将3D点轨迹用作可迁移可用性表征,实现从人类到机器人的跨领域技能迁移。类似地,ViSA-Flow在从大规模人-物交互视频中提取的语义动作流上预训练生成模型,只需最少适配即可用于下游机器人学习。
训练策略也得到了广泛研究,以提高效率和适应性。Zhang等人通过2,500次滚动实验分析了微调因素(包括动作空间、策略头设计和监督信号),为适配基础规模VLA模型提供了实用指南。Chen等人研究了将思维链推理整合到具身策略学习中的方法,证明轻量级推理机制能够显著提升性能,且推理速度比标准方法快3倍。
综上,这些努力表明,研究正朝着基于大规模、多样化数据集训练,并配备模块化推理能力的通用具身智能体方向收敛。大规模预训练、高效适配和可迁移可用性表征的结合,正将基础规模VLA模型定位为下一代机器人智能的核心。该方向的代表性研究总结于表4(D),突出了推动基础规模VLA研究的数据中心型和算法型进展。
3.4.5 基于效率、安全性和人机协作的VLA模型部署
随着VLA模型从研究向真实世界应用过渡,实际部署需要全面关注效率、稳健性和人机交互。实时推理、对抗性条件下的韧性以及无缝协作流程,是在动态、不可预测环境中实现可靠操作的关键。这一方向整合了系统优化与安全性和适应性,确保高性能模型在实际应用中既有效又可信。
效率导向设计侧重于减少推理延迟、降低计算需求,并提高对资源受限平台的适应性。为实现实时执行,RTC(实时分块)在执行当前动作段的同时预测后续动作段,支持连续高频控制。EdgeVLA消除了末端执行器预测中的自回归依赖,并整合了紧凑语言模型,实现了6倍速度提升,同时性能损失最小。类似地,DeeR-VLA采用基于置信度的早期退出机制,在达到置信度阈值后终止推理,降低了在线控制成本。
在适配过程中保持知识完整性已成为另一个优先事项。知识隔离VLA模型解决了将专用模块整合到预训练VLA中时的语义退化问题,通过隔离策略保留跨任务泛化能力。基于一致性的加速策略(如CEED-VLA)应用一致性蒸馏和早期退出解码,实现了超过4倍的推理加速,同时通过混合标签监督缓解误差累积。RoboMamba等轻量级多模态融合方法和ReVLA等跨领域适配方法进一步提升了部署效率。
安全性和稳健性已成为部署就绪性的同等重要支柱。SAFE利用VLA内部特征表征检测多任务中的故障,泛化到未见过的场景,并支持主动干预。Cheng等人通过物理脆弱性评估程序(PVEP)进行的安全评估揭示了模型对 adversarial patches、基于排版的提示和分布偏移的脆弱性,推动了对抗稳健感知-控制流水线的发展。Lu等人的可解释性研究揭示了VLA隐藏层中物体、关系和动作的符号编码,为更透明的决策制定奠定了基础。DyWA等自适应控制框架通过联合建模几何、状态、物理和动作,进一步增强了稳健性,以应对动态、部分可观测条件。
人机协作研究探索了人机交互学习循环,双方可相互改进性能。Xiang等人提出了将有限专家干预整合到VLA决策中的协作框架,减少了操作员工作量,同时丰富了模型训练数据。Zhi等人的闭环策略将GPT-4V感知与实时反馈控制相结合,以动态适应环境变化。历史感知策略学习和CrayonRobo等基于物体中心的视觉提示方法增强了任务接地和透明度,而技能库构建和接地掩码方法实现了可扩展、可重用的任务分解。cVLA等相机空间策略设计通过直接在2D图像坐标中预测轨迹航点,改进了仿真-真实迁移,使策略对形态的依赖性更低。实际部署的代表性方法总结于表4(E),突出了效率、安全性和人机协作方面的关键创新。
总之,VLA系统的实际部署需要多方面的设计理念,同时解决效率、安全性和协作适应性问题。实时推理优化、针对故障和对抗性条件的稳健性以及人机协同改进策略的整合,正为真实世界环境中的持久、可靠和交互式机器人系统铺平道路。
3.4.6 讨论
创新点:所综述的其他先进VLA研究突出了多项创新,共同将VLA研究扩展到前文所述范围之外。整合多种推理和动作生成范式的混合架构、用于3D感知空间接地的先进多模态融合,以及将VLA原则扩展到自动驾驶、人形控制和GUI交互等领域的专用适配。基础规模模型利用大规模多模态数据集构建日益通用的智能体,而面向部署的方法强调效率、安全性和人机协作,以实现真实世界适用性。
局限性:然而,这些混合系统的计算成本仍然高昂,且难以扩展;多模态融合在噪声或不完整真实世界输入下仍存在困难;领域特定适配可能导致对狭窄上下文的过拟合;而基础模型需要大量数据和资源投入。尽管部署努力前景良好,但在对抗性或动态条件下的稳健性、可解释性和可靠性方面仍面临挑战。解决这些局限性需要更高效的训练策略、更广泛的评估标准,以及更强的研究设计与实际部署整合。
4 数据集与基准测试平台
与其他模仿学习方法类似,VLA模型依赖高质量标注数据集。这些数据集要么从真实世界场景中收集,要么通过仿真环境生成,数据集样本如图4所示。它们通常包含多模态观测(如图像、激光雷达点云和惯性测量单元(IMU)读数),以及相应的真值标签和语言指令。为促进系统性理解,我们分析了现有数据集和基准测试平台,并提出了一种分类方法,根据复杂度、模态和任务多样性对数据集进行分类。该分类体系为评估不同数据集对VLA研究的适用性提供了清晰框架,并突出了现有资源中的潜在差距。代表性研究成果总结于表5。
4.1 真实世界数据集与基准测试平台
高质量真实世界数据集是开发可靠VLA算法的基础。近年来,研究人员收集了大量高质量、多样化的真实世界机器人数据集。这些数据集采用不同传感器模态,涵盖各种任务和环境设置。
4.1.1 具身机器人真实世界数据集与基准测试平台
具身机器人真实世界数据集指从通过感知和动作与环境交互的机器人中获取的多模态数据集合。具身机器人数据集专门设计用于捕捉视觉、听觉、本体感觉和触觉传感输入与相应电机动作、意图和环境上下文之间的复杂交互。它们对于训练和评估具身人工智能模型至关重要,其目标是使机器人能够通过动态环境中的闭环自适应行为执行任务。通过提供丰富的时间对齐观测和动作数据,这些数据集成为模仿学习、强化学习、视觉-语言动作和机器人规划等算法开发和基准测试的基础资源。
当前具身机器人数据集面临显著的数据成本问题,因为真实世界机器人数据的收集规模有限。收集真实世界机器人数据集面临诸多挑战,不仅需要硬件设备,还需要精确操作。其中,MIME、RoboNet和MT-Opt收集了涵盖从简单物体推动到复杂家庭物体堆叠等多种任务的大规模机器人演示数据集。与假设每个任务只有一条最优轨迹的先前数据集不同,这些数据集包含同一任务的多个演示,并使用测试轨迹间的最小距离作为评估指标。这种方法显著推动了操作和VLA任务的研究进展。BridgeData提供了一个大规模多领域机器人数据集,包含10个环境中的71项任务。实验表明,在该数据集上联合训练,并结合新领域中少量未见过的任务(如50项任务),相比仅使用目标领域数据,成功率可提高一倍。因此,许多当代VLA方法采用BridgeData进行模型训练。在具身人工智能领域,模型泛化能力往往受到收集多样化真实世界机器人数据难度的限制。RT-1提供了广泛的真实世界机器人任务数据集,以同时提高任务性能和对新场景的泛化能力。类似地,Bc-z包含先前未见过的操作任务,涉及同一场景中物体的新组合,支持通用策略学习研究。部分数据集还为具身人工智能提供了全面的软件平台和生态系统,涵盖手部操作、运动、多任务、多智能体场景和基于肌肉的控制等环境。与早期研究相比,RoboHive弥合了当前机器人学习能力与潜在发展之间的差距,支持强化学习、模仿学习和迁移学习等多种学习范式。值得注意的是,RH20T提供了包含110,000个操作片段的147项任务,涵盖视觉、力、音频和动作等多模态数据。每个片段都配有人类演示和语言描述,使得该数据集特别适用于单样本模仿学习和基于先前训练片段向新任务的策略迁移。
为推进更通用操作策略的开发,机器人社区必须优先收集涵盖广泛任务和环境设置的大规模、多样化数据集。部分数据集由多个地区的多台机器人协作收集,成为迄今为止地理和上下文多样性最高的具身机器人数据集之一。此外,Open X-Embodiment(OXE)整合了来自21个机构协作收集的22个机器人数据集,涵盖527项技能和160,266个任务。OXE提供标准化数据格式,方便研究人员使用。这些数据集的概述如表5(A)所示。
在基准测试评估中,研究人员通常使用成功率(成功完成任务数占总任务数的比例)作为指标。部分研究还采用语言遵循率评估模型理解和执行语言指令的能力。此外,近期VLA模型通常通过将训练后的策略迁移到先前未见过的环境中进行评估,以衡量稳健性和泛化性能。
4.1.2 自动驾驶真实世界数据集与基准测试平台
自动驾驶数据集与具身机器人数据集不同,它已成为人工智能最具变革性的应用之一,高度依赖大规模数据集来训练和评估感知、规划和控制算法。高质量数据集是开发稳健、通用自动驾驶系统的基础,因为它们支持监督学习、基准测试以及对罕见或安全关键场景的仿真。在过去十年中,研究人员推出了众多数据集,提供包括相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据。这些数据集在地理覆盖范围、传感器配置、驾驶行为多样性和标注丰富度方面存在显著差异,成为研究和开发的互补资源。
然而,大多数公开数据集是在开环设置中收集的,主要代表正常驾驶行为,这限制了它们对长尾边缘情况的覆盖。为解决这一差距,近期研究致力于生成合成数据、仿真闭环交互,并构建针对罕见或安全关键事件的数据集。数据集设计的持续创新对于推进安全、可扩展和通用的自动驾驶系统至关重要。
在评估方面,自动驾驶VLA模型通常依赖L2距离(衡量与参考轨迹的偏差)和完成率(量化成功完成驾驶任务的比例)等指标。
4.2 仿真数据集与基准测试平台
为连续控制任务收集大规模真实世界数据面临重大挑战,因为这些任务需要人类标注员的实时交互和连续反馈。此外,获取此类数据通常成本高昂且耗时,限制了其可扩展性。这使得利用虚拟化引擎生成的仿真数据进行具身机器人或自动驾驶模型的大规模、高质量数据训练和评估成为一种可行的可扩展机制。
4.2.1 具身机器人仿真数据集与基准测试平台
具身人工智能仿真数据集通常包括合成场景、基于物理的交互、导航标注、物体操作、任务执行和智能体-环境动态。这些数据集支持对从视觉导航、语义探索到复杂多步骤物体操作等广泛任务的基准测试和训练。代表性示例包括Meta-World、RLBench、RoboGen、ALFRED和iGibson,每个示例在真实感、任务多样性和控制保真度方面都有不同的权衡。通过支持安全实验和大规模数据收集,仿真数据集为开发稳健、通用的具身智能体奠定了基础。随着该领域的成熟,设计更丰富、更真实的仿真数据集(涵盖多样形态、任务和环境)将继续推动真实世界部署的进展。
ROBOTURK是一个用于高质量6自由度操作状态和动作的仿真数据集,通过移动设备遥操作收集。与依赖远程用户在虚拟引擎中演示动作的传统方法不同,ROBOTURK利用策略学习生成具有不同奖励的多步骤机器人任务。通过聚合大量演示,该数据集为训练和评估提供了精确、可靠的数据。iGibson 0.5引入了一个用于训练和评估交互式导航解决方案的基准测试平台。这项工作不仅提供了新颖的实验仿真环境,还提出了专门的指标来评估导航路径上导航与物理交互之间的相互作用。该基准测试平台引入了交互式导航分数,由两个子指标组成:路径效率和努力效率。路径效率定义为最短成功路径长度与机器人实际行驶路径长度的比值,并乘以成功指示函数。努力效率捕捉导航过程中所需的额外运动学和动力学努力,反映物理交互成本。VIMA引入了一个新的基准测试平台VIMABENCH,建立了四级评估协议,以评估逐步增强的泛化能力,从随机物体放置到全新任务。类似地,CALVIN和LOTA-Bench专注于利用多模态机器人传感器数据,在不同操作环境中学习长时程、语言条件任务。这些基准测试平台特别适用于评估通过在大规模交互数据集上训练并在新场景上测试来实现对未见过实体泛化的方法。这些基准测试平台的性能通常使用任务成功率来衡量。这些仿真数据集的概述如表5(B)所示。
4.2.2 自动驾驶仿真数据集与基准测试平台
闭环仿真在确保自动驾驶系统安全性方面起着关键作用,因为它能够生成在真实世界中难以或危险捕捉的安全关键场景。尽管先前记录的驾驶日志为构建新场景提供了宝贵资源,但闭环评估需要修改原始传感器数据,以反映更新后的场景配置。例如,可能需要添加或移除智能体,且现有智能体和自车的轨迹可能与原始记录不同。UniSim是一种神经传感器仿真器,能够将单条记录轨迹扩展为多传感器闭环仿真。它构建神经特征网格来重建静态背景和动态智能体,将它们合成以从新视角仿真激光雷达和相机数据。这使得能够添加、移除或重新定位智能体。为更好地适应未见过的视角,UniSim进一步采用卷积网络来补全原始数据中不可见的区域。
与真实世界自动驾驶数据集不同,闭环仿真基准测试平台需要针对交互式驾驶任务的专用评估指标。常用指标包括驾驶路线(衡量对规划轨迹的遵循程度)、违规分数(对交通规则违规的惩罚)和完成分数(评估任务完成情况)。这些指标共同为VLA模型在真实、安全关键驾驶场景中的性能提供了更全面的评估。
4.3 讨论
创新点:本文介绍了系统性分类体系、标准化评估指标以及Open X-Embodiment(OXE)等大规模协作项目,这些项目整合了来自多个机构的数据集,以促进可复现性和泛化能力。这些贡献实现了更广泛的任务覆盖、更丰富的模态组合以及改进的跨领域策略迁移,推动了具身人工智能研究的可扩展性。
局限性:然而,真实世界数据集的收集成本高昂且后勤挑战大,通常局限于受控实验室环境,场景多样性有限;尽管仿真数据集具有可扩展性和安全性,但仍难以完全捕捉真实世界交互的复杂性、噪声和不可预测性。此外,成功率和轨迹偏差等基准指标可能无法充分反映语言接地、长时程推理或在非结构化环境中安全部署等精细能力。解决这些局限性不仅需要扩大数据集的多样性和真实感,还需要设计更丰富的评估协议,以更好地捕捉真实世界自主性的需求。
5 仿真器
机器人仿真器已成为在多样化、交互式环境中开发和评估智能机器人系统的不可或缺的工具。这些平台通常整合物理引擎、传感器模型(如RGBD、IMU、激光雷达)和任务逻辑,支持导航、操作和多模态指令跟-随等广泛任务。最先进的仿真器为使用强化学习、模仿学习或大型预训练模型训练具身智能体提供了可扩展、照片级真实感和物理合理的环境。通过提供安全、可控和可复现的设置,具身仿真器加速了通用机器人智能的发展,同时显著降低了真实世界实验的成本和风险。
THOR是一个具有近照片级真实感3D室内场景的仿真器,人工智能智能体可在其中导航环境并与物体交互以完成任务。它支持多种研究领域,包括模仿学习、强化学习、操作规划、视觉问答、无监督表征学习、物体检测和语义分割。相比之下,部分仿真器基于虚拟化真实空间而非人工设计环境,包含数千座全尺寸建筑,并配备受真实物理和空间约束的具身智能体。Habitat和Habitat 2.0进一步扩展了这一范式,提供可扩展的仿真平台,用于在具有交互式物理启用场景的复杂3D环境中训练具身智能体。ALFRED引入了一个包含长时程、组合任务且具有不可逆状态变化的基准测试平台,旨在弥合仿真基准测试与真实世界应用之间的差距。ALFRED既包含高层目标,也包含低层语言指令,与现有视觉-语言数据集相比,在序列长度、动作空间和语言变异性方面使任务复杂度显著提高。
早期结合物理和机器人任务的仿真环境通常专注于狭窄的场景集,并仅包含小规模、简化的场景。相比之下,iGibson 1.0和iGibson 2.0是开源仿真平台,支持在大规模、真实环境中进行更多样化的家庭任务。它们的场景是真实世界家庭的复制品,物体分布和布局与物理空间高度一致,从而提高了生态有效性,并弥合了仿真与真实世界机器人学习之间的差距。
先进仿真器不仅允许多个智能体在同一环境中交互,还提供广泛的传感器和物理输出。理想情况下,此类仿真器应整合通用物理引擎、灵活的机器人仿真平台和高保真渲染系统。这些特性使它们成为机器人仿真和生成模型评估的强大工具。
MuJoCo是一个被广泛采用的开源物理引擎,旨在促进机器人技术和相关领域(需要精确仿真)的研究与开发。近年来,基于GPU的仿真引擎越来越受欢迎。值得注意的是,基于Omniverse平台构建的NVIDIA Isaac Gym能够在物理逼真的虚拟环境中大规模开发、仿真和测试人工智能驱动的机器人。Isaac Gym在学术界和工业界都越来越受欢迎,用于加速新机器人工具的创建和现有系统的增强。
自动驾驶领域也面临类似挑战,大规模真实世界数据收集和标注既昂贵又耗时。收集足够数据以覆盖众多罕见边缘情况尤其困难。为解决这一问题,研究人员开发了包含静态道路元素(如交叉路口、交通灯和建筑物)和动态智能体(如车辆和行人)的仿真器。CARLA和LGSVL利用游戏引擎渲染真实驾驶场景,支持灵活的传感器配置,并生成适用于训练和评估驾驶策略的信号。这些平台已成为推进自动驾驶研究的关键,提供了可控、可复现且经济高效的测试环境。
6 机器人硬件
机器人的物理结构为其感知、运动、操作和与环境交互提供了基础。其核心组件通常包括传感器、执行器、动力系统和控制单元。传感器(如相机、激光雷达、惯性测量单元和触觉阵列)提供关于外部环境和机器人内部状态的关键信息。执行器(包括电机、伺服电机或液压系统)将控制信号转换为物理动作,实现运动和物体操作等任务。控制单元通常基于嵌入式处理器或微控制器,通过整合传感器输入并向执行器发出指令,充当计算核心。动力系统通常以电池或外部能源形式存在,支持持续运行。硬件设计必须在性能、能效、重量和耐用性之间取得平衡,以满足不同应用领域(包括工业自动化、服务机器人和自动驾驶车辆)的任务特定要求。
7 挑战与未来方向
7.1 视觉-语言-动作模型面临的挑战
本节总结了推进视觉-语言-动作(VLA)模型发展面临的开放性挑战和未来方向。尽管近年来取得了显著进展,但VLA模型的发展逐渐暴露出关键瓶颈。最根本的问题在于,当前VLA系统在很大程度上建立在大规模LLM或VLM迁移的基础上。尽管这些模型在语义理解和跨模态对齐方面表现出色,但缺乏与物理世界交互的直接训练和经验。因此,VLA系统在真实环境中往往表现出“理解指令但无法执行任务”的差距。这反映了一个根本矛盾:语义级泛化与物理世界具身能力之间的脱节。如何实现从非具身知识到具身智能的转变,真正弥合语义推理与物理执行之间的差距,仍是核心挑战。具体而言,这一矛盾体现在以下几个方面。
7.1.1 机器人数据稀缺
机器人交互数据是决定VLA模型性能的关键资源;然而,现有数据集在规模和多样性方面仍存在不足。在真实世界中跨广泛任务和环境收集大规模演示数据受到硬件成本、实验效率和安全问题的限制。Open X-Embodiment等现有开源数据集推动了机器人学习的发展,但主要集中在桌面操作和物体抓取任务上。这种任务和环境多样性的缺乏严重限制了模型对新场景和复杂任务的泛化能力。RLBench等仿真平台提供了生成大规模轨迹的经济高效方式,但受到渲染保真度、物理引擎准确性和任务建模局限性的制约。即使采用领域随机化或风格迁移等技术,仿真-真实差距仍然存在,许多模型在仿真中表现良好,但在部署到物理机器人上时却失败。因此,如何大规模提高机器人数据的多样性和真实感,仍是缓解泛化不足问题的主要挑战。
7.1.2 架构异质性
大多数VLA模型尝试对视觉、语言和动作进行端到端建模,但其实现方式存在显著异质性。一方面,不同研究采用不同的骨干网络:视觉编码器可能依赖ViT、DINOv2或SigLIP;语言骨干网络可能依赖PaLM、LLaMA或Qwen;动作头可能采用离散token化、连续控制向量,甚至基于扩散模型的生成方式。这种架构多样性阻碍了模型间的比较和重用,延缓了统一标准的形成。另一方面,感知、推理和控制在内部往往耦合松散,导致特征空间碎片化,跨平台或任务领域的可移植性较弱。部分模型在跨任务语言理解方面表现出色,但在与低层控制器对接时需要大量适配。这种架构异质性增加了集成复杂性,并严重限制了泛化性和可扩展性。
7.1.3 实时推理约束与成本
当前VLA模型严重依赖具有自回归解码的大规模Transformer架构,这严重限制了真实机器人上的推理速度和执行效率。由于每个动作token依赖于前一个token,延迟会累积,而动态抓取或移动导航等高频率任务需要毫秒级响应。此外,高维视觉输入和大量参数带来了极高的计算和内存成本。许多最先进的VLA模型需要的GPU内存远超典型嵌入式平台的容量。即使采用量化、压缩或边缘-云协同推理等技术,仍难以在准确性、实时性能和低成本之间取得平衡。这种推理约束和硬件瓶颈使VLA部署陷入“速度过慢”和“成本过高”的困境。
7.1.4 人机交互中的伪交互
系统根据先验知识或静态训练模式生成动作,而非基于环境动态和因果推理进行真正的交互。当遇到不熟悉的场景或状态变化时,模型通常依赖从数据中学习的统计共现关系,而非探索环境或利用传感器反馈改进动作。这种因果推理的缺乏意味着VLA可能看似遵循指令,但无法在环境状态和动作结果之间建立真正的因果链。因此,机器人在动态环境中往往无法适应。这种伪交互突显了VLA在因果建模和反馈利用方面的不足,仍是具身智能的关键障碍。
7.1.5 评估与基准测试局限性
VLA模型的评估也存在局限性。当前基准测试主要设置在实验室或高度结构化的仿真环境中,侧重于桌面操作或物体抓取任务。尽管此类任务能够衡量模型在狭窄分布上的性能,但无法捕捉其在开放世界场景中的泛化性和稳健性。一旦部署到户外、工业或复杂家庭环境中,性能往往会大幅下降,暴露出评估与真实世界适用性之间的差距。这种狭窄的评估范围阻碍了对VLA可行性的全面评估,并限制了模型间的横向比较。缺乏统一、权威且多样化的基准测试正成为真实世界进展的主要瓶颈。
尽管上述五个方面突出了数据、架构、交互和评估方面的关键不足,但并未涵盖VLA研究面临的所有挑战。更根本的是,长期问题在于VLA系统是否能够真正实现可控性、可信性和安全性。换句话说,VLA的未来不仅需要解决性能和泛化问题,还需要应对负责任地部署智能智能体的更深层次关切。这一转变意味着研究人员必须超越模型优化,迈向系统性范式转变,以应对长期挑战。
7.2 视觉-语言-动作模型的机遇
尽管面临严峻挑战,VLA的未来也充满机遇。作为连接语言、感知和动作的关键桥梁,VLA有潜力超越语义-物理鸿沟,成为具身智能的核心路径。克服当前瓶颈可能会重塑机器人研究范式,并使VLA处于真实世界部署的前沿。
7.2.1 世界建模与跨模态统一
目前,VLA系统中的语言、视觉和动作仍处于松散耦合状态,限制了其从指令“生成”向整体世界理解的发展。实现真正的跨模态统一将使VLA能够在单一token流中联合建模环境、推理和交互。这种统一结构将使VLA发展成为原型世界模型,使机器人能够形成从语义理解到物理执行的闭环。这不仅是技术进步,更是迈向人工智能通用智能的关键一步。
7.2.2 因果推理与真正交互的突破
大多数现有VLA依赖静态数据分布和表面级相关性,缺乏基于因果规律的交互能力。它们通过从先验模式中猜测来模拟交互,而非探索环境并利用反馈更新策略。如果未来的VLA能够整合因果建模和交互式推理,机器人将学会探索、验证和适应——实现与动态环境的真正“对话”。这一突破将克服伪交互问题,标志着从数据驱动智能向深度交互式智能的转变。
7.2.3 虚实融合与大规模数据生成
尽管数据稀缺是关键限制,但这也代表着巨大机遇。如果能够通过高保真仿真、合成数据生成和多机器人共享,整合虚拟与真实数据生态系统,就有可能构建包含数万亿条跨多样任务轨迹的数据集。正如GPT利用互联网规模语料库实现语言智能的飞跃一样,此类数据生态系统可能会推动具身泛化能力的飞跃,使VLA能够在开放世界场景中稳健运行。
7.2.4 社会嵌入与可信生态系统
VLA的最终价值不仅在于技术能力,还在于社会整合。随着VLA进入公共和家庭空间,安全性、可信性和伦理对齐将决定其能否被广泛采用。建立风险评估、可解释性和问责制的标准化框架,将把VLA从实验室成果转变为可信伙伴。一旦嵌入社会,VLA有望成为下一代人机智能接口,重塑医疗、工业、教育和服务等领域。这种社会嵌入标志着将前沿研究转化为真实世界变革的里程碑式机遇。
8 结论
近年来,视觉-语言-动作(VLA)模型的进展将视觉-语言模型的通用能力扩展到机器人应用领域,包括具身智能、自动驾驶和多种操作任务。本综述通过考察VLA方法的设计动机、方法学和应用,系统梳理了VLA方法的发展历程。文中提出了统一的架构分类体系,分析了300多篇相关文献及配套资料。首先,我们根据VLA架构创新,将其分为基于自回归的模型、基于扩散模型的模型、基于强化学习的模型、混合结构以及效率优化技术五大类。随后,探讨了支持VLA训练和评估的数据集、基准测试平台和仿真平台。在全面综述的基础上,分析了现有方法的优势与局限性,并指出了未来研究的潜在方向。这些见解共同提供了一份综合参考资料和前瞻性路线图,旨在推动可信赖、持续演进的VLA发展,助力机器人系统中通用人工智能的进步。