大语言模型LLM在2022年的“ChatGPT时刻”之后,火爆全球。人工智能下一个热点转移至世界模型”;在斯坦福大学任教的李飞飞甚至将募集的2.3亿美元,全部押注于构筑能够实现空间智能的世界模型。
世界模型开发的焦点已从简单的虚拟游戏环境扩展到复杂的现实世界,其应用领域遍及机器人、自动驾驶和科学发现等诸多领域。
以NVIDIA为代表的商业世界,将世界模型看作是十万亿美元级别通用机器人产业的催化剂。NVIDIA认为世界模型是一类生成式 AI 模型,能够理解现实世界的动态,包括物理和空间属性。它们使用文本、图像、视频和运动等输入数据来生成视频。世界模型通过感知数据来学习运动、力和空间关系等动态的表征和预测,能够理解现实世界环境的物理特性。
大语言模型之外,“世界模型”新概念
学术圈里对世界模型的认知,则经历了几次重要的节点。早期的贡献不得不提及2025年图灵奖得主理查德·萨顿(Richard Sutton),他在20世纪90年代初,提出了基于强化学习的世界模型算法架构Dyna,是“世界模型”思想的早期形式和代表。
萨顿在Dyna架构中,提出了基于真实经验构建或学习一个现实世界环境(World)的动态模型,即“世界模型”,该模型可用来描述状态转移和奖励函数;其次,通过与现实世界环境的交互,使用强化学习算法直接调整评估函数和更新策略。Dyna架构中通过学习和使用动态模型(世界模型),实现在虚拟的内部环境中进行试验和规划,成为世界模型思想的重要开端。
到2018年,Google的David Ha等在论文《World Models》提出了一种通过神经网络构建“世界模型”的方法,用于加强学习环境的建模和策略训练。简单而言,David Ha提出的世界模型是一个生成式神经网络,可以通过无监督学习(VAE,V)快速地获得对环境的空间和时间的压缩表征。该模型通过记忆网路(MDN-RNN,M)来理解和预测环境的状态迁移,并模拟环境中的未来变化。智能体通过一个非常简单且紧凑的策略网络(C)模拟不同的未来状态来做出决策以完成任务。
Yann LeCun,这位2018年图灵奖得主,在今年初的巴黎人工智能峰会,阐述了他认知的未来人工智能系统:首先,基于世界模型的人工智能系统需要从现实世界接收观测信息,感知模型将依据这些信息生成对世界当前状态的表征;其次,因为现实世界的状态并非完全可观测,还需要结合存有对现实世界状态理解的记忆;此后,“世界模型”将依据给定的世界当前状态的表征和记忆、设想执行的动作序列,预测在执行这些动作后,现实世界将迁移到什么状态(预测状态);最后,通过任务目标函数评估表征的预测状态是否符合预设的目标,而必要的护栏目标函数则是评估系统是否满足安全运行所需的约束条件。
身在Meta的Yann LeCun近来多次直言不讳地批判了当前人工智能对大型语言模型的过度依赖。他认为大预言模型对逻辑的理解非常有限,不理解物理世界,没有持久的记忆;既不能进行常识性推理,也不能进行层次化的规划。他希望未来AI研究聚焦于模型架构的创新,而非仅仅依赖于扩大模型规模和数据量。他将“世界模型”看作AI迈向自主智能的关键技术路径,其核心是从感知到抽象再到预测与规划,实现机器的“心智模拟”和因果推理能力,推动AI研究从基于模式匹配向基于理解和推理转变。要是你喜欢算法编程,也可以参考Yann LeCun之前在他脸书账号下用伪码描述的世界模型。
今年六月,Meta发布的V-JEPA 2 收获众多好评,就是因为采取了与传统完全不同的方法,模型的预测在更为抽象的表征空间进行。从侧面也印证了Yann LeCun之前的断言:“试图通过训练AI系统在图片像素级进行预测,进而理解世界或者建立世界模型的尝试都将失败。”

AI领域的研究人员通过探索新的架构、学习范式以及整合多模态信息的方法;尝试去构建能够观察物理世界复杂性和不确定,进行因果推理并应用到全新情境的世界模型。

#人工智能 #技术创新 #世界模型