本文作者:曾爽@西安交通大学
引言
具身智能(Embodied AI)正引领人工智能迈向与物理世界深度交互的新纪元,而视觉-语言导航(VLN)是其核心挑战之一:如何让智能体像人类一样,理解自然语言指令并在真实三维环境中自主行动?近年来,多模态大语言模型(MLLM)的涌现虽为VLN注入了强大动力,但其普遍依赖的显式语义记忆机制——如记录历史图像或构建文本拓扑地图——已成为制约其性能与效率的“阿喀琉斯之踵”。这些传统方法不仅造成了关键空间信息的损失与计算资源的浪费,更从根本上忽视了视觉感知的三维本质。
为了突破这一瓶颈,阿里巴巴高德地图与西安交通大学的研究团队联合提出了名为JanusVLN的全新VLN框架。从人类大脑在导航时高效协同处理语义与空间信息的机制中汲取灵感,JanusVLN开创性地引入了双重隐式记忆(Dual Implicit Memory)范式。该范式将复杂的环境信息解耦为独立的语义与空间几何表征,并以紧凑、高效的神经网络状态进行存储与更新。仅需单目RGB视频流,JanusVLN便能赋予模型卓越的三维空间推理能力,同时彻底解决了传统方法的记忆膨胀与计算冗余问题。在VLN-CE和RxR-CE两大权威基准测试中,JanusVLN的性能全面超越现有前沿方法,树立了新的SOTA标杆,为构建更高级的具身智能体铺平了道路。
论文标题:JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
作者:ShuangZeng,Dekang Qi,Xinyuan Chang,FengXiong,Shichao Xie,
Xiaolong Wu,Shiyi Liang,MuXu,XingWei
项目主页:https://miv-xjtu./JanusVLN./
代码地址:https://github.com/MIV-XJTU/JanusVLN
当前VLN面临的记忆困境
长时序导航任务对智能体的记忆能力提出了严峻考验。当前主流VLN方法在记忆管理上主要存在三大核心难题:

· 空间关系失真:将视觉观测抽象为文本描述(如“前方有一张桌子”)的方法,丢失了物体间精确的相对位置、朝向与距离等连续几何信息,导致智能体难以执行需要精细空间推理的指令。
· 计算效率低下:依赖存储历史图像序列的方法,在每一步决策时都需对不断增长的图像序列进行重复编码和注意力计算,导致计算开销随导航步数线性增加,严重影响了实时性。
· 记忆无限膨胀:无论是文本还是图像记忆,其存储量都随导航轨迹的延长而持续增大。这不仅增加了存储负担,更使得模型在庞杂冗余的信息中检索关键记忆变得愈发困难,即“记忆爆炸”问题。
问题的根源在于,现有模型大多沿用为2D图文理解设计的架构,未能充分挖掘2D图像中蕴含的透视、遮挡等丰富的三维空间线索,造成了模型在3D交互任务上的“先天不足”。
JanusVLN:以双重隐式记忆重塑导航范式
为彻底解决上述难题,JanusVLN构建了一套全新的、基于双重隐式记忆的导航框架。其核心创新点如下:
1)解耦语义与空间:双重隐式记忆
JanusVLN创新地将记忆系统一分为二:“语义记忆”负责理解环境中“是什么”(如物体类别、属性),“空间几何记忆”则负责感知“在哪里”(如三维位置、场景布局)。这两种记忆不再是原始的图像或文本,而是经过神经网络深度处理后的键值(KV)缓存。这种隐式表征极为紧凑,却蕴含了丰富的提炼后信息,从根本上解决了记忆膨胀问题。
2)单目RGB驱动的3D空间感知
我们为JanusVLN集成了一个强大的预训练3D视觉几何基础模型(VGGT),使其仅通过普通的RGB视频流就能推断出场景的三维结构。这一设计使得JanusVLN摆脱了对深度相机、激光雷达等昂贵传感器的依赖,极大地提升了算法的通用性和部署可行性。
3)恒定开销的增量式更新机制
JanusVLN采用了一种新颖的混合增量更新策略,通过一个固定的“初始窗口”(保留导航起点的全局信息)和一个“滑动窗口”(聚焦于近期环境变化)来维持一个恒定大小的记忆池。在决策时,模型仅需处理当前帧并与这个固定大小的记忆池交互,实现了计算开销与导航步数解耦,确保了高效的推理速度。
实验验证:性能全面领先,刷新SOTA纪录
我们在VLN-CE和RxR-CE两大极具挑战性的VLN基准上对JanusVLN进行了全面评估,实验结果充分证明了其卓越性能。
· 超越传统多模态方法:相较于依赖全景图、深度图等多种传感器输入的复杂方法,JanusVLN仅凭单目RGB输入,就在成功率(SR)上取得了**10.5%至35.5%**的绝对提升。
· 领先同类单目RGB方法:与同样使用RGB输入但采用显式记忆的SOTA方法(如NaVILA、StreamVLN)相比,JanusVLN在SR指标上实现了3.6%至10.8%的显著领先,同时使用的辅助训练数据更少,彰显了双重隐式记忆范式的优越性。
· 强大的跨场景泛化能力:在语言和环境更多样化的RxR-CE数据集上,JanusVLN同样刷新了SOTA,SR指标领先以往最佳方法3.3%至30.7%,证明了其强大的泛化能力。
· 定性分析:可视化结果表明,JanusVLN在处理需要复杂空间推理的任务时表现出色。例如,在面对“走向离你最远的黄色凳子”这类指令时,其空间几何记忆使其能够准确判断距离关系,从而做出正确决策,而这是传统方法难以企及的。
总结与展望:迈向三维空间感知的具身智能
本文提出的JanusVLN框架,通过引入开创性的双重隐式神经记忆范式,成功解耦了导航任务中的语义理解与空间感知。这一设计不仅从根本上解决了现有VLN方法在记忆效率、计算开销和空间信息保真度上的核心痛点,更通过融合先进的3D视觉基础模型,赋予了智能体前所未有的、仅依赖RGB输入的三维感知能力。
JanusVLN的成功,标志着VLN研究正从一个侧重2D语义匹配的阶段,向一个语义与三维空间协同推理的新纪元迈进。我们相信,这一全新的记忆范式将为未来构建能够在复杂物理世界中高效、精准执行任务的下一代具身智能体提供关键性的理论与技术支持。
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}