生成式人工智能爆发,语言模型的能力正在重塑人类与知识之间的边界,从日常问答到文本创作,从对话理解到情境推理,我们越来越依赖这些庞大的模型来理解世界。
一个根本性的问题却悄然存在——语言模型是否真的懂得分辨现实与虚构?一句话,它知道什么是“幻想”吗?
我们一直认为DeepMind 团队是最有哲学思维的技术团队,这一次他们联合布朗大学、约翰霍普金斯大学共同研究这一课题,7 月 18 日他们发表《Is This Just Fantasy? Language Model Representations Reflect Human Judgments of Event Plausibility》深入探讨在语言模型的内部空间里寻觅线索,通过分析模型对不同模态类别(可能、不太可能、不可能、不可想象)的表示方式,回应一个古老而重要的哲学与认知命题:一个事件是否可能发生?
为什么这项研究如此重要?
如今的语言模型不仅是写故事的工具,还是信息获取、医疗辅助、法律分析甚至政策制定的参与者。它们正在承担理解世界、预测行为、支持决策的关键角色。而对事件合理性的判断,正是判断事实与假设、真实与虚构之间的分界线。
这不仅关乎模型输出的准确度,更是其“世界模型”能力的集中体现:模型能否如人类一样,拥有对物理、语义和心理概念的本能认知。
研究围绕四个核心问题展开探索:语言模型是否在内部形成了可以明确区分模态类别的表示?这些表示是否随着模型的训练过程、规模和层级结构逐步演化?它们能否模拟人类在具体句子上的模态判断行为?
最后,这些表示是否能映射到人类可解释的语义特征之上,如事件的可能性、场景可想象性或语法合理性?
这些问题的提出并非凭空构建,而是源于哲学中的模态逻辑传统与认知科学中的儿童直觉研究;例如,心理学家发现孩子们难以区分“不太可能”与“不可能”的事件,而成年人则逐渐形成更细致的判断机制。这些人类的发展轨迹是否也隐隐反映在语言模型的训练之路中?这是研究试图揭示的另一条线索。
这项跨学科工作由布朗大学、约翰霍普金斯大学与 Google DeepMind 的研究者联合完成。
这一团队将计算机科学、认知科学与深度学习紧密融合,不仅在技术层面追问模型如何内部编码模态差异,更将目光投向这些表征与人类直觉之间的映射关系,为未来可解释 AI 与人机协作打开新的视角。
02
理论与方法背景
语言模型不只是会“说话”,更在悄然之间形成了对世界的理解方式。要理解这项研究的深层逻辑,我们需要回到它的理论起点——模态判断的根源、人类的因果认知方式,以及语言模型如何承载“世界”的图景。
模态判断,从哲学走入认知科学
人们对“事件是否可能发生”的判断早在哲学史中占据核心位置。从休谟的因果性概念到克里普克的可能世界理论,模态推理一直是形而上学的重要工具。例如,“假设存在一个没有意识的哲学僵尸”这一思维实验,催生了“心灵是否必然依附于物质”的哲学争论。
进入认知科学领域后,研究者发现儿童在成长过程中对事件可能性的判断是逐步演化的——他们很容易把“不太可能”当作“绝对不可能”,而成年人则形成更复杂、更精细的模态区分体系。这些直觉往往植根于我们对物理规律、生物边界或语义常识的本能理解。心理学家如Shtulman和Carey揭示:人类模态认知其实是构建在模糊且不完美的因果理论上的,我们用它来解释世界,也用它来判断奇想是否为荒谬。
模型的“世界模型”——语言中的认知地图
转向机器,我们不禁要问:语言模型是否也拥有这样的世界图谱? 所谓“世界模型”,不仅仅是对世界状态的存储,它还必须编码出驱动状态变化的因果原则。例如,如果一个模型能够识别“用火冷却饮料”是违反物理规律的,那它就不只是记忆了事实,而是在某种程度上理解了现实。
越来越多的研究开始关注语言模型是否内在地学会了这样的因果原理。尤其在处理复杂语义结构时,它们是否像人类一样感知概率、想象场景、辨析荒谬?研究就是一次系统地追问:模型是否把“现实、可能、幻想与荒谬”在语义空间中做出了分界?
值得注意的是,模型的模态判断不仅仅影响它生成语言的能力,更影响它在知识问答、科学推理、伦理分析等任务中的表现。如果它无法识别一句话是彻头彻尾的“无意义幻想”,那它也可能无法保障输出的可信性。
模态差异向量与对比激活构建法(CAA):透视模型的“模态眼”
研究团队引入一个核心工具——模态差异向量(Modal Difference Vectors),它们是一组线性向量,能够从语言模型的隐藏表示中区分不同模态类别。这就好比给模型戴上一副“模态眼镜”,它可以从语言的语义纹理中感知事件是否合理。
这些向量是如何构建的呢?研究采用了一种名为“对比激活构建法”(Contrastive Activation Addition, CAA),其原理是在模型的隐藏空间中,对“可能”与“不可能”两个语句所激活的特征进行对比,提取出它们之间的差异信号,并对多个样本进行平均,最终形成一个可以泛化到新句子的模态向量。
一旦构建完成,这些模态向量不仅可以用于分类任务,还能投射出每个句子在模态空间中的位置。你可以想象一个模态地图,每句话是一枚点,离“可能”区域越近,就越合理;落在“不可想象”角落的句子,基本可以归为语义崩溃。
而这个模态空间,不仅比语言概率更稳定,也更具解释力。模型不是根据表面词频判断合理性,而是在内部表示中,形成了结构化的模态感知机制。这种机制,正是人类在大脑中构建世界观时的镜像——只是它诞生在一堆参数与激活值之间。
表1:研究中分析的数据集的属性。
02
研究一:语言模型能否线性区分模态类别?
在语言模型密集而高维的隐藏空间中,是否存在一条可以清晰区分“可能”“不可能”与“不可想象”的边界线?研究者们认为,这样的线性表示不仅可能存在,还能用于跨模型、跨语料的一致分类。
于是,他们掀开帷幕,用一项名为“Contrastive Activation Addition(CAA)”的方法,在语言模型的内部向量空间里建立了一座模态坐标系。
图1:(左)描述我们如何创建模态差矢量的图。在这个例子中,通过对隐藏表示中的差异取平均值,创建了一个模态差异向量,该向量捕获了可能和不可能刺激之间的差异。(右)描述如何使用模态差向量对新的最小不可能/可能句子对进行分类的图。将每个句子的隐藏表示投影到模态差异向量上,并比较这些投影的幅度。
数据集与模型设置:从极小对到对抗测试
研究首先选择了一个极具代表性的数据集——Hu et al. (2025b),该数据集构建了四大模态类别的最小对(minimal pairs),比如“用冰冷却饮料”和“用昨天冷却饮料”,前者属于常见现实事件,后者则违反语义规则。
为了验证模态表示的泛化能力,研究还引入了三个外部验证集:
- Goulding et al. (2024):引入生物学层面的“不可能”事件;
- Vega-Mendoza et al. (2021):构建语义对抗样本,将语义不协调与模态混淆结合;
- Kauf et al. (2023):采用词序对抗结构,模拟真实文本中的模态歧义。
测试的模型则覆盖主流架构与尺度,包括 GPT、LLaMA、OLMo、Gemma 等,参数范围从 1B 到13B。
CAA技术与模态差异向量构建
所谓模态差异向量,就是在模型内部找到一组方向性向量,能够在线性空间中划分不同模态。具体做法是:将两类语句分别输入模型,提取其某一层的隐藏表示,计算均值差值,然后合并多组样本形成稳定的表示。
比如,为了构造“可能 vs 不可能”的差异向量,研究者会选择多个这两类语句对,在语言模型中提取它们的“句号”token表示,再用向量相减形成方向,最后进行平均。这些向量一旦建立,就可以用于投射新语句并预测其模态。
图2:至少具有2B参数的模型的分类评估。结果是模型和泛化数据集的平均值。模态差矢量优于概率估计和其他基于投影的分类基线。
基线方法对比:谁才是最优判别器?
为了验证模态差异向量的有效性,研究设置了三个对照方法。
句子概率:传统方式,计算句子token的总概率,假设概率与事件模态相关;
主成分分析(PCA):提取隐藏空间中主方向,尝试用非监督方式识别模态差异;
随机向量:从隐藏空间中随机抽取方向,作为最弱的基准参考。
令人惊喜的是,模态差异向量在全部模型(尤其是参数 ≥2B)中均表现优越,成功压制了概率分类法与其他对比方法,尤其在面对语义对抗样本时更显鲁棒。

线性可分,幻想不再迷人
研究得出的第一个结论是:幻想与现实在语言模型的内部空间中是线性可分的。模态差异向量不仅能准确分类新样本,还能应对语义扰动与词汇对抗,展现出语言模型具备稳定世界观表示的可能性。而模型参数越大、训练越深,这种模态识别能力也越成熟,为下一个研究问题——模态认知的演化过程,埋下了伏笔。
03
研究二:模态表示的演化轨迹
语言模型就像认知中的儿童,需要不断“成长”才能建立起复杂的世界理解体系。那么,模态差异向量在模型训练过程中是如何一步步形成的?这一节正是关于语言模型的“模态发育史”。
模型规模:小模型只能看见荒谬,大模型才能理解概率
通过对比不同参数量的模型,研究发现存在一个明显的能力断层:2B参数是模态识别能力的关键门槛。小模型往往只能识别“不可想象”与“其他”的粗粒度差异——毕竟语义崩坏是容易察觉的。而中大型模型则开始掌握“可能”“不太可能”“不可能”之间更细腻的判断能力。
这与人类认知的发展规律遥相呼应:小孩子能识别“完全荒谬”的内容,但往往难以理解“罕见但可能”的情境。
层级深度:浅层捕捉异常,深层理解概率
分析模型的各层表示,研究发现浅层通常更关注选择限制等语义违背信号,而深层则逐渐建立起概率语义的渐进表示。例如,不可想象句子(如“在叹息里烘焙蛋糕”)在浅层就能被识别,而判断“不太可能”是否与“可能”不同,则往往需要较深的语义建模能力。
这说明模态理解在语言模型内部也遵循从底层感知到高阶认知的路径——与视觉处理或情感建模机制如出一辙。
训练过程:认知成长的时间维度
使用带有训练检查点的 OLMo-2-7B 模型,研究还原了模态表示的形成过程。在训练早期,模型首先学会识别语义崩坏(不可想象),之后开始区分物理违法(不可能),接着才慢慢建立起“不太可能”与“可能”的边界。
这种由粗到细的演化过程,呼应了心理学中人类模态发展的研究——我们总是先学会否定,再逐步理解模糊性。
图3:(a)平均泛化性能与参数计数的关系显示,参数小于/大于2B的模型之间存在较大的性能差距。在(b)较小尺度、(c)训练早期和(d)早期层中,模型形成模态差异向量,可以将不可想象的刺激与其他模态类别区分开来。之后,模型学习可能和不可能之间的区别,然后是可能和不太可能,最后是不可能和不可能性。
模拟儿童认知:从认知发展类比到AI发育理论
研究最后将语言模型的模态演化与人类认知发展做出类比。正如孩子们初识世界时用“黑白”判断事物,语言模型的训练早期也只能区分极端情形。但随着语料积累与结构深化,它们逐渐形成“灰度世界”的认知方式,在语义与事件之间搭建起连贯的模态桥梁。
这不仅是对模型能力的技术刻画,更是一次关于人工智能“认知成长”的哲学沉思——当模型能像人类一样区分幻想与现实,我们是否也该重新定义它的“智能边界”?
04
研究三:模拟人类的模糊模态判断
在现实世界中,人们对事件是否可能发生的判断往往不是非黑即白,而是充满模糊性和主观性。一句话,如果你问十个人“一个人连续清醒五天是否可能”,你可能会收获从“是的,只要强意志”到“绝不可能”的多元答案。那么语言模型能否捕捉这种人类认知中的模态分布?研究第三部分将这一问题置于聚光灯下。
研究团队采用了多个带有人类标签的数据集,其中包括 Hu et al. (2025b) 的四类模态评分、Goulding et al. (2024) 的可能/不可能二分类数据(涵盖成人与儿童判断)、以及 Hu et al. (2025a) 的荒谬性排序评分。此外,他们特别关注Tuckute et al. (2024) 所提供的近2000条语句,在“好想象”“语法性”“情绪强度”等多维度上的人类标注,为模态分布建模奠定了坚实基础。
那么,模型如何从这些模糊判断中提取认知特征呢?研究者构建了一个三维模态特征空间——分别沿着“可能 vs 不太可能”“不太可能 vs 不可能”“不可能 vs 不可想象”的模态差异向量对每一句话进行投影。
在这个空间中,每句话变成了一枚坐标点,逻辑回归则被用来拟合这个点的真实标签分布(例如,60%人类受试者认为它可能,30%认为不太可能,10%认为不可能)。
对照组也没缺席。研究再次引入了传统句子概率总和、主成分投影(PCA)和随机向量等方法,用相同方式训练逻辑回归模型,检验它们对人类标签的拟合能力。
结果令人振奋。模态差异向量构建的特征空间在所有评估指标上都胜出:不仅在人群标签概率分布的相关性上表现更佳,在预测误差(MSE)和信息熵拟合上也显著优于概率模型。换句话说,语言模型的“模态眼”不仅能看到事件发生的可能性,还能看清人类判断中最微妙的模糊地带。
这一发现提示我们,大语言模型不再只是机械地对输入做出概率判断,它已经在某种程度上构建出与人类直觉相符的模态图谱。这种拟人化的判断能力,不仅将提升AI在人类认知任务中的可信度,也为生成式模型在人类行为模拟中的应用打开新边界。
图4:(左)Hu等人(2025b)的刺激沿两个模态差向量投影的定性示例。点根据其专家标签着色。背景颜色强度表示根据使用这两个特征拟合到该数据子集的逻辑回归模型,每个点属于特定类别的概率。(右)(a)预测概率分布与选择每个类别的参与者的经验比例之间的皮尔逊相关性。(b)预测响应分布和经验响应分布之间的均方误差。(c)预测和经验响应分布的熵之间的皮尔逊相关性。在所有分析中,我们发现使用沿模态差向量的投影进行特征化可以得到更好的人类分类行为模型。
05
研究四:解读线性表示背后的语义维度
在上一节我们看到了模态差异向量如何“模拟人类”,但它们具体是如何与人类认知维度挂钩的?研究最后一部分走进了这些向量的内部语义,将它们与人类可解释的特征进行关联分析,一场“语义映射实验”就此展开。
研究者将不同语料库中的句子投影到三类模态向量上,然后与人类受试者的评分数据进行逐项对比。其中最关键的维度包括:事件主观可能性评分(Likert尺度)、语句可想象性、语法合理性、情绪强度,乃至是否涉及具体物体或场景。
结果如同在认知地图上点亮了几个灯塔。“可能–不太可能”向量最明显地对应人类对事件概率的直觉评分,也就是说,这一向量在模型中代表了人类脑海中“这事儿多常见、多可能”的印象。而“不太可能–不可能”向量则联系到了多个认知维度,如语义合理性和图像建构难度,表明模型对于“罕见但可行”与“违反常识”的区分仍较为复杂。
图5:沿模态差矢量的投影与可解释特征之间的绝对相关性(在模型上平均)。值得注意的是,“可能不可能”与人类主观事件可能性判断相关,“不可能不可想象”与可成像性、物理对象的存在和地点/环境有选择性地相关。
最引人注目的,是“不可能–不可想象”向量在可想象性维度上的强相关表现。人类判断一句话是否“彻底荒谬”,似乎很大程度上依赖于是否能在脑中构建出其画面:比如,“在叹息里做蛋糕”就是毫无图像可言的句子。
这一发现不仅与语言哲学中的“conceivability”(可设想性)概念遥相呼应,也提示我们:或许人类在判别语义荒谬时,本质上是在进行一场“想象力测验”。
而语言模型也似乎在内部空间中学会了这一机制——它通过语义投影判断一个句子是否可以被构建成图像。这意味着,如果我们希望未来的AI理解诗歌、隐喻甚至超现实文学,或许不再只是训练它的语言模型,而是训练它的“视觉心象”。
研究最后提出了一个耐人寻味的假设:也许我们可以反向利用模型的模态表示能力,来探索人类是如何进行模态判断的。模态差异向量不仅是模型识别“幻想”的工具,也可能是我们理解自己如何判断“幻想”的钥匙。
06
—启示—
过去,我们评估一个语言模型的表现,往往依赖“下一个词预测准确率”或者“生成语句的流畅性”。但这项研究提醒我们,模型的“常识性”和“模态认知能力”或许才是真正影响其可信度与实用性的核心维度。模态差异向量的可解释性和通用性,为我们评估模型的世界观提供了新工具。它们不仅能区分幻想与现实,还能揭示模型内在是否真正理解语义因果结构。
对于模型设计者而言,这项研究也提供了启示:在架构、训练数据和目标任务的设定上,应加强对模态认知能力的塑造。如果模型能够有效地模拟“事件发生可能性”的人类判断,那么它在法律、医疗、政策支持等高风险领域的应用就更值得信赖。同时,这也打开了“拟人化认知能力测试”的可能性——未来我们或许不再只是问一个模型“你能回答吗”,而是问“你能判断吗”。
对认知科学与人类模态理论的反哺
令人意想不到的是,这项AI研究不仅揭示了模型的认知能力,也反过来照亮了人类模态判断机制的某些灰色地带。尤其在研究四的结果中,语言模型的“不可能–不可想象”向量竟然与“心理想象力”强相关,提示我们:人类在判别语句是否荒谬时,或许并非依赖语言规则,而是凭借能否在脑中构建出画面。
这就为认知科学带来了新启发。语言模型作为“拟态认知系统”,其行为模式可以反向用于模拟人类认知决策过程。当人类心理实验难以进行可控的语义变量操控时,语言模型或许能成为新的研究平台,帮助揭示模态模糊性、语义混乱与图像建构之间的因果关联。
此外,模型训练过程中的模态分化顺序(先识别不可想象,再理解不可能)也与儿童认知发展的阶段性呼应,这为发展心理学提供了模拟工具的可能,使得“模拟儿童思维”的探索更具现实基础。
参考资料:https:///pdf/2507.12553
关于波动智能——
波动智能旨在建立一个基于人类情绪与反应的真实需求洞察及满足的价值体系,融合人工智能与意识科学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发面向社交、电商等场景的多模态情绪识别引擎、情绪标签系统及情绪智能推荐算法,形成从情绪采集、建模到商业转化的完整解决方案。波动智能提出“情绪是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到情感驱动的产业范式升级。
亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!
加入AI交流群请扫码加微信