在大语言模型不断向智能体范式演化的今天,一个亟待解决却始终游离于主流视野之外的问题逐渐浮出水面:当多个智能体并肩作战,甚至互为对手时,它们是否真正理解彼此的思维?换句话说,人工智能能否像人类一样,具备心智理论Theory of Mind,简称 ToM——推测他人信念、意图与知识状态的能力?这是实现人与机器无缝协作、模型与模型之间高效配合的关键。而回答这一问题,我们或许正需要一个真正对话型的测试平台,而不仅仅是一组静态题库。

Meta FAIR 与牛津大学联手推出的 Decrypto 基准,由此应运而生。

为什么 ToM 如此关键?

随着语言模型被逐步赋予更复杂的代理行为,它们不再只是执行命令的静默程序,而是被用于网页导航、协同编程、团队推理乃至博弈环境。这些任务几乎天然具备多智能体性:要么需要 LLM 理解用户意图,要么需要它与其他模型或人类高效互动。

而在多智能体环境中,任务的本质往往是非完全可观测、充满不确定性的。这时,是否能模拟其他智能体的心智状态”——他们知道什么?他们相信什么?他们会如何解读我说的话?——就成为智能体成功的分水岭。

过去的研究表明,一些语言模型看似具备 ToM 的萌芽能力,但这些结论通常建立在对“Sally-Anne”类型问题的解答上,这类任务局限明显,远不能涵盖真实世界中人与人、人与机器之间的高维语境互动。

现有评估为何不够?

目前主流的 ToM 测评,大多存在以下几个问题。

缺乏交互性:几乎所有任务都是单轮问答,而非连续推理与博弈;

语境偏移严重:很多测试将具身实验(如儿童心理学中的盒子任务)直接文本化,忽略了真实交流中的语言策略;

表现趋于饱和:简单任务已无法区分模型间的能力差异,甚至部分低配基线也能拿到高分;

覆盖面狭窄ToM 维度众多(虚假信念、视角转换、归因推理等),现有测试往往只关注其中之一。

正因为如此,Decrypto 的提出不只是一个新 benchmark,而是一次对多智能体语用推理研究范式的革新。

Decrypto 有何特别之处?

与其说 Decrypto 是一个基准测试,不如说它是一场语言博弈实验的平台。它基于现实中一款广受欢迎的桌游《Decrypto》重构,构建了一个最简但极具挑战性的三人局面:

  • Alice(编码者)与 Bob(解码者)协同传递秘密代码;

  • Eve(拦截者)试图猜测并破译他们的交流;

  • 三者都能看到所有历史提示,却有信息差。

模型必须在自己人留下足够线索不暴露给敌人过多信息之间找到语言的模糊区间,这正是现实中语用推理的精髓所在。更重要的是,Decrypto 通过语义关联而非逻辑约束,彻底剥离了传统 benchmark 中的数学、符号、tokenization 等干扰因素,专注测试模型的语言理解能力与心智建模策略

此外,研究团队还引入了两个经典心理学实验的变体(Smarties 任务与三山问题),验证模型在代表性转变、虚假信念识别与视角转换等方面的能力。这种跨学科设计让 Decrypto 成为首个真正将认知心理实验与语言 AI 评估相结合的平台。

这项工作由一个跨足学术与产业、理论与实践的黄金组合完成。

Andrei LupuTimon Willi与 Jakob Foerster分别在 FAIRMeta 的人工智能研究院)与牛津大学拥有双重身份;

FAIR 作为业界顶尖的 AI 研究机构,在多智能体学习与语言推理领域积淀深厚;

Jakob Foerster 教授本身就是多智能体强化学习领域的领军人物;

牛津大学的理论支持与 Meta FAIR 的工程落地能力,共同铸造了 Decrypto 这一认知科学 + 博弈建模 + LLM 能力评估的新范式。

这个组合让 Decrypto 不仅成为一个创新性的 AI 测评工具,也成为链接认知科学、语言哲学与 AI 工程之间桥梁的大胆尝试。

论文链接:https:///pdf/2506.20664

项目地址:https://github.com/facebookresearch/decrypto/

01

Decrypto 游戏机制

 Decrypto 中,语言不只是交流的工具,而是策略的武器。这款源自现实桌游的博弈机制,被巧妙地重构为一个多智能体互动平台,让语言模型在说什么怎么说之间展开一场心智与策略的角逐。

1左:Decrypto的一个回合概览,分为三个步骤,AliceBob(编码器和解码器)与Eve(拦截器)对决。第一步:Alice得到一个由3个不重复数字组成的随机码,并提供3个提示,指向四个关键字的含义。第二步:BobEve收到提示并尝试独立猜测代码。步骤3:猜测和代码都会公开,代码和提示历史也会更新。

多智能体角色设定:AliceBob  Eve

整个游戏被设计为三方角力的局面。

Alice是加密者,她掌握一组秘密关键词和一串三位数字密码。她的任务是提供线索,帮助队友猜中密码。

Bob是解码者,他与 Alice 属于同一阵营,只能看到线索,不能看到关键词,需要从提示中推理出密码。

Eve则是拦截者,她是对手阵营的一员,试图从公开的提示中破译密码,干扰 Alice  Bob 的交流。

Alice  Bob 协作传递信息,Eve 处于监听状态,三个角色间的信息不对称构成了语言推理的张力核心。

游戏回合是如何运作的?

每一局最多持续 8 回合,而每回合的流程精妙而紧凑,充分释放语言模型的推理潜力。

私密关键词与三位密码

游戏伊始,Alice  Bob 共享四个不重复的关键词,例如 [star, jazz, thunder, plane]。这些词对 Eve 是保密的。

随后,每一回合,Alice 随机接收到一个三位数字代码(例如 [2-3-4]),数字范围在 1  4 之间,对应的是关键词的索引。

提示词的生成与公开

这是博弈的高潮。Alice 必须基于她手中的关键词以及代码,对每一位数字生成一个提示词,组成三条公开线索。比如如果代码是 [2-3-4],她可能会写下 [bass, Zeus, takeoff]

提示词必须与关键词在语义上有关联;避免直接暴露关键词;不能依赖拼写、发音等形式特征。

这是一场精密的平衡艺术:提示必须让 Bob 有望猜出密码,但又不能让 Eve 太容易破解。

解码与拦截决策

Bob  Eve 分别依据提示词独立进行猜测,尝试还原出 Alice 的三位数字代码。Bob若失败,即构成误传Eve若成功,即被认为拦截成功。

结果公开与历史积累

最终,实际密码与双方的猜测全部公开,并记录到历史中。重要的是,提示历史会在接下来的回合继续被参考,这意味着Eve 会借助历史信息逐渐建立关键词提示的语义关联;Alice 越往后越难给出既熟悉又陌生的提示。

每一回合不仅是一个推理挑战,也是一次语用策略的演化过程。

游戏的胜负如何判定?

这是一个典型的风险控制型博弈

  •  Eve 成功 拦截两次,或者 Bob 误解两次Alice/Bob 队伍直接失败;

  • 若能在 回合内成功避开上述情形Alice  Bob 获胜。

这意味着,Alice 若出太聪明的提示让 Bob 不懂,或太直白 Eve 破解成功,都会导致失败。

从语用学到博弈学:RSA 框架下的语言推理

表面上看,Decrypto 是语言推理游戏,实质上却是一种语用博弈。作者用 Rational Speech ActRSA)模型 来形式化解释这种策略行为。

在这一框架下,Alice 被视为理性的发言者,会基于对 Bob  Eve 知识状态的建模,去选择最优提示;Bob 是理性的听众,不仅要理解提示的表层含义,还要推测 Alice 是基于怎样的考虑做出这些表达;更妙的是,Bob 最终甚至要进行二阶心智建模——“Alice 如何看待 Eve 对提示的理解能力

简而言之,Decrypto 让语言模型不仅要说得对,更要说得巧。它要求模型从语义转向策略,从表层推理转向角色感知,在语用模糊地带寻找最优解。这样的机制,不仅贴近现实人际交流,也让 AI 的心智理论研究真正步入可交互的新纪元。

02

Decrypto 基准设计

在语言模型不断扩张边界的当下,评估其心智社交策略的能力,正成为全新挑战。Decrypto 的设计理念并不复杂,却蕴藏着极为前瞻的评估哲学。它不是另一个堆砌文本理解题的基准,而是一座为交互而生的语言推理试验场。让我们一起揭开它精巧背后的四大关键设计思路。

去繁就简,一个清洁的推理测试台

Decrypto 的第一大特色,就是它清晰地避开了大语言模型普遍挣扎的那些认知地雷。

传统 benchmark 往往要求模型进行复杂的符号计算、数学推理或空间想象,还可能受到token 化策略、上下文冗长或提示工程的干扰。而 Decrypto 选择将这一切降噪:它不涉及计算、不要求使用工具、不需要理解几何空间,也不依赖视觉或状态跟踪。模型的表现,几乎纯粹取决于它对词语之间语义关联的理解能力与语用策略的构建能力。

这种极简而纯粹的测试环境,让我们能更加准确地观察模型在语义博弈与心智建模方面的真实能力,而不是它是否擅长考试

告别记忆作弊:680 个关键词 × 8.8 亿种组合

大语言模型有个不公平优势”——它们经常在训练阶段见过题Decrypto 非常严肃地对待这个问题。它从 680 个关键词中不重复地挑选四个构成每局游戏的基础词汇,产生出超过 8.8 亿种可能组合。每回合的密码由 4 个数字( 4)中的 3 位数组成,进一步丰富了复杂度。

不仅如此,提示词的选择完全开放,可以根据关键词自由生成,意味着生成空间几乎无限。在这样高维的状态行为空间下,即便是参数量最大的模型,也极难依靠训练记忆蒙混过关

这使得 Decrypto 成为对模型真正泛化能力的试金石。

从词库到策略都可定制

Decrypto 的可扩展性也堪称一绝。研究者不仅可以更换关键词池,引入不同领域、不同语义层级的概念,甚至可以为模型设计不同的角色人格(persona),探索文化、背景、语用风格对模型行为的影响。

提示策略的设计同样灵活。只需更改一两个 prompt 或几行代码,就能把 Smarties 任务、三山问题这类经典心理学实验注入游戏机制之中,实现动态评估。这种低代码、高灵活性的实验平台,为认知心理学与人工智能的融合打开了大门。

一场合作 × 对抗的双重测验

Decrypto 不仅仅是测试模型能否说得对,它更关心模型能否说得巧。在 Alice  Bob 的协作中,考验的是模型是否能给予对方刚刚好的提示;在 Eve 的对抗下,检验的则是提示是否能隐藏得足够巧妙。这种平衡合作与防御的设定,极大接近人类实际的沟通与博弈场景。

更妙的是,研究者可以自由组合模型扮演不同角色,探索模型与 模型B”是否能高效协作,或评估一个 LLM 是否擅长偷听与破译。这类交互评估机制,打破了一问一答的静态范式,让 Decrypto 成为真正意义上的交互型 benchmark”

2:单词嵌入基线中以错误通信结束的游戏百分比(左)和平均游戏长度(右)与K(每个关键字的提示词汇量)的函数关系。每条曲线对应一对(编码器、解码器)。对于低K,基线协调良好,但它们的提示更容易被拦截。在高K值下,两个模型都从相似性较低的单词中采样。这导致了非常强的自我游戏基线,在交叉游戏中无法协调,大多数游戏在K>128时以沟通不畅告终。虽然拦截器是Llama 3.1-70B,但趋势适用于所有拦截器,包括基线。报告了3个模型种子的平均值和标准误差。

03

多智能体推理评估

Decrypto 的语言不再是单向的问答,而是一场交织着合作与对抗、策略与推理的多智能体心理博弈。而若想真正揭示语言模型在这一语用迷宫中的表现,就必须从模型间的协作与对抗说起。

模型间对抗:当语言模型成为敌手

 Decrypto 的竞争环境中,一种典型设定是让两个模型组成编码/解码队伍(Alice  Bob),与另一个模型扮演的拦截者(Eve)对抗。这种模拟真实语言对抗场景的配置,完美展现了模型在语言隐喻、语境遮蔽和策略表达方面的真实功力。

拦截率与误解率是胜负风向标

实验结果表明,尽管诸如 Llama-3.1-70B 等大型模型在模型间协作中具备一定优势,但他们在提示策略上仍显直白,拦截率居高不下。换言之,Eve通常更容易赢下比赛,因为 Alice 很难拿捏提示的模糊度,让 Bob 恰好明白、Eve 恰好猜不出。

与此同时,解码者若对语义提示理解偏差,就会出现误解Miscommunication),成为另一类失败指标。Decrypto 的妙处在于,两个指标互为拉锯:提示太精确被拦截,太含糊又导致误解,如何在这两者之间维持动态平衡,是语言模型当前尚未掌握的艺术

角色互换,体现评估公平性

为了避免策略偏向评估中的某一方,研究者采取了角色互换team swap)的方式,即让模型轮流扮演 Alice/Bob  Eve,统计彼此在不同角色下的胜率与平均回合数。这种方法保障了评估的对称性,也让模型的通用博弈能力得以充分展现。

不过,实验指出一个有趣现象:即使是自我协作(self-play),模型间也很难展现出明显协同优势,表明 LLM 在语言上尚未具备强鲁棒的自建语用模型的能力。

即席协作,陌生模型间的第一次搭档

如果说对抗是考验模型的隐蔽语言策略,那么协作就是检验它们建立信任、共享语义假设的能力。

模型之间的语义不对齐

Decrypto 中的即席协作(Ad-hoc Coordination)场景,模拟的是 Alice  Bob 分别由两个从未联合训练过的模型扮演,它们能否通过彼此的提示策略建立共同语言?现实是残酷的:即使是能力强大的模型组合,依然频频出现误解。这种语义不对齐(semantic misalignment),是当前 LLM 在开放协作环境中的主要瓶颈。

Meta与牛津大学联手推出 Decrypto 基准,重塑多智能体心智推理的范式

例如,GloVe-Alice 使用的词语fire)可能在 Word2Vec-Bob 的世界里语义距离完全不同,最终导致对同一提示的误解。这不是模型能力的缺失,而是模型之间嵌入空间不一致导致的协作错位

人机混合队伍:语言 AI 社交测试

更具挑战性的是人机协作实验。在这些测试中,人类担任 Alice  Bob,与 LLM 共同完成解码任务。结果清晰:人类搭档明显优于 LLM 解码者。即使是最强模型 Claude 3.7,也无法准确读懂人类搭档的提示意图。

这说明,当前模型在理解自然语言的社会语用层方面尚有巨大差距。换句话说,它们可能能理解字面,但尚未真正读懂人

三大核心指标:拨开胜负的面纱

要全面刻画模型表现,仅凭胜率远远不够。Decrypto 提供了更精细的三类指标,帮助研究者对模型博弈策略进行结构化剖析。

误解次数(Miscommunications:衡量提示者与解码者之间说不到一块的次数,反映协作失效点。

拦截成功数(Intercepts:评估提示词是否暴露太多信息,让对手轻松猜出秘密密码。

平均回合数:游戏持续越久,代表模型越能在误解与暴露之间取得平衡。

这三个指标构成了语言博弈的三角关系:调整其一,往往牵动其余。一个优秀的语言模型,需要在三者之间找到最优解,这才是真正的博弈智慧

04

心智理论(ToM)实验设计

研究者不仅评估模型的合作与对抗能力,更将目光聚焦到一个更具心理深度的目标:人工智能是否具备心智理论Theory of Mind, ToM)?也就是说,一个模型是否能够推测他人的信念、知识状态、认知盲点,甚至犯下高阶认知错误

心智理论三大能力维度:理解认知,远非理解事实

想要判断一个智能体是否拥有 ToM,不能靠一个问题定生死,而应从多个维度系统观察。在 Decrypto 中,研究者将 ToM 拆解为三种核心能力。

代表性转变(Representational Change, RC:模型是否意识到,获得新信息后自己的认知模型需要更新。比如说,当真相揭晓,它是否明白之前自己的猜测与现实冲突。

虚假信念(False Belief, FB:模型是否能模拟别人的错误认知。就像小朋友知道另一个孩子看不到糖果已经被换成铅笔,这个任务要求模型理解他人并不拥有自己所知道的一切

视角转换(Perspective Taking, PT:模型是否能跳出上帝视角,仅基于某个角色可见的信息来做推理——特别是在 Decrypto Eve 角色身上最为关键。

这三个维度共同构成了模型理解他者的能力地图,从自我认知,到他者建模,再到角色内推理,层层递进。

Smarties 任务变体:经典实验重制上线

认知心理学中最著名的 ToM 实验之一,是“Smarties 任务:一个糖果盒子实际上装了铅笔,孩子必须判断另一个还未打开盒子的人会有什么误解。在Decrypto 中,这一原理被巧妙转化。

实验以 Eve 为主角,在每轮解码前后,通过三个不同提示对其认知状态进行测量:

  • 提示:让 Eve 在未看到关键词前猜测其内容;

  • 提示:揭示关键词后,询问 Eve 回顾之前自己会如何猜测;

  • 提示:揭示关键词后,询问一个第二个 Eve”会怎么猜。

通过比较 A  B,评估模型的认知更新能力(RC;通过 A  C,则测量其建模他人错误认知的能力(FB

为了提高任务精度,研究者进一步设定了弱指标强指标

弱指标只要求模型察觉认知变动或他者误解;

强指标则要求模型在 B/C 提示中复现 A 中的回答,也就是展现出一个自洽的认知模型,这一点远比想象中更困难。

三山问题变体:Eve 不知道你知道她不知道?

第二项实验源于皮亚杰的三山问题,是一项测试儿童是否能站在他人视角做空间判断的经典研究。

Decrypto 中的重构思路是在 Alice 提供提示后,让她预测 Eve 会猜什么代码;比较 Alice 的预测与 Eve 的实际猜测,评估其视角建模能力(PT);特别关注 Alice 预估Eve 成功拦截的频率:如果她过度高估,说明她无法理解 Eve 的信息盲区;反之如果全面低估,则忽视了 Eve 的语境感知能力。

一个有趣的观察是:许多大型模型(包括 ClaudeGPT-4o)在所有轮次中都预测 Eve 会成功拦截,即便是第一轮——这显示出它们严重依赖上帝视角缺乏角色限定的语用建模能力

实验表现:强模型,弱心智?

图示结果揭示了一个令人意外的趋势:在三项 ToM 子任务中,开源的 Llama 3.1-70B 在多个场景下反而超过了比它更新的高性能模型,如Claude 3.7  DeepSeek-R1。尤其是在代表性转变与虚假信念任务的强指标下,几乎所有模型的表现都跌至10% 以下,这表明它们尚未形成稳定、自洽、可更新的认知模型。

视角转换任务中,多数模型倾向于高估对手,并不具备根据 Eve 所知信息调整自己提示策略的能力。这不仅是建模失败,更是语用策略无法闭环的表现:如果模型预测提示会被 Eve 破解,那它一开始就不该给出这个提示。

05

实验设置与模型对比

这套高度语用化的多智能体测试平台中,模型的表现不再是生成正确答案那么简单,而是体现在它们是否具备长期博弈、理解他人思维与适应不确定语言策略的能力。为了深入探索这一点,研究团队设计了一套细致、富有张力的实验设置,让不同类型、不同结构的模型在统一规则下展开一场精彩对决。

通用型 vs 专用型模型,你是全能通才,还是定制高手?

研究者首先划出了两个大类的选手。

通用型(Generalist模型,指的是那些开箱即用的大语言模型,没有为Decrypto 做过专门微调,也不借助精心设计的提示模板。它们的任务就是用自身训练积累的通识能力,直接面对这场语用博弈。这类模型考验的是 零样本泛化能力,也就是它们对未见任务的适应力。

与之对照的是专用型(Specialist模型,它们可能经过强化学习、提示链构建,甚至采用规则嵌入等方式,为 Decrypto 游戏定制了策略。这些模型看似有些作弊,但它们恰好代表了 AI 应用中定制型方案的真实生态。

为了防止对通用型模型的不公平比较,论文建议明确标注测试设定,并通过大量不同版本的提示实验,排除 prompt 工程带来的偶然性。

GloVe  Word2Vec:那些老派词向量的坚韧反击

在模型大战之外,研究者引入了一对朴素却耐打的基线:GloVe  Word2Vec,这两个早期词嵌入模型被用于构建规则化的 Alice  Bob

具体方法很简洁:Alice 在给出提示时,从与目标关键词语义最接近的前 K 个词中挑选提示;Bob 则根据自己嵌入模型的距离判断提示属于哪个关键词;Eve 使用平均词向量来猜测提示组合,并试图复原代码。

你可能会觉得,这种策略哪能赢得了当今的大模型?但实验显示,在 Alice  Bob 使用相同嵌入空间并共享策略的前提下,这种规则系统的表现出奇地稳健,有时甚至能在协作效率上优于通用大模型

不过问题也很现实:只要嵌入不一致——比如 GloVe 的提示用词在Word2Vec 里排不上号——协作立即崩塌。这恰恰揭示了共享语义空间对于多智能体协作的关键意义。

人类也参战,Decrypto 不止是模型的竞技场

除了模型对抗,研究团队还引入了罕见而宝贵的实验:人类参赛者数据采集。十组人类玩家通过命令行界面与模型扮演的 Eve 进行 8 轮完整博弈,生成了高质量的自然互动语料。

这些打满回合的对局不仅提升了测试数据多样性,还能作为固定语境进行模型重放实验。研究者替换 Bob  Eve,让模型在原始人类提示下完成解码或拦截,验证它们是否能读懂人类

结果呢?哪怕是 Claude 3.7  DeepSeek-R1 这样的顶流模型,在人类提示面前也显得有些鸡同鸭讲:误解率高、协调失败、预测不准。说明人类语用策略中仍有大量隐性逻辑,是当前 LLM 尚无法捕捉的。

谁是赢家?开源与闭源模型正面交锋

3:6种不同代理的合作和竞争结果。“Llama”指的是《Llama 3.1指令》;“DS-R1-32B”“DeepSeek-R1-Distill-Qwen-32B”。所有结果均为32款游戏和3款模型种子的结果。上图:拦截器为Llama 3.1-70B-指令时的合作交叉播放矩阵。左:以沟通不畅结束的游戏比例。正确的每集的平均转弯次数。在K=16时,基线相互配合良好,优于所有测试的LLM代理,但与LLM的协调较差。底部:同质编码器解码器团队对抗拦截器的竞争结果。左:以拦截结束的游戏比例。右图:每集的平均转弯次数。

Baselines的表现全面优于LLM代理商。DeepSeek-R1-Distill-Qwen-32B在专门研究LLM之间的协调和竞争时是最强的LLM,但与基线的兼容性较差,在拦截它们方面比GPT-4o弱。

在模型阵容方面,本研究涵盖了多个重量级选手。

开源阵营:包括 Llama 3.1  8B  70B 版本,以及DeepSeek-R1-Distill-32B

闭源代表:如 GPT-4o Claude 3.7(含延伸推理版本);

还包括一款专门在 ToM 数据上微调的 ExploreToM-8B,旨在检验训练能否带来心智进步

测试发现,单从对抗和协作胜率上看,Claude  GPT-4o 表现尚可,但并非统治级别;在强 ToM 任务中,Llama 3.1-70B 反而稳定胜出,表现出意外的老将冷静

特别地,ExploreToM 虽然在设计上针对心智推理,但实际表现却弱于原始模型。这一结果提醒我们:心智理论并非靠训练就能注入,它需要的是结构上的理解、角色推理的归纳与语用策略的统合。

06

实验结果解读

当我们将语言模型拉入这个以隐喻与暗示为武器的游戏棋盘上,Decrypto的实验结果揭示了一个令人既惊喜又警醒的现实:即使是当今最强的模型,在语用策略、信息控制和心智建模上,仍有诸多盲点。接下来,我们就从协作、对抗、人机交互和心智理论四大维度,带你一探这些模型在 Decrypto 中的真实表现。

合作之难,误会比失败更令人尴尬

在合作场景中,最直观的失败不是拦截,而是误解—— Bob 无法正确还原 Alice 想传达的密码。研究者发现,很多强模型组合,在合作中说不到一块去的情况频繁发生。

Llama 3.1-8B 就是其中的典型:作为解码者时,它的误解率居高不下,导致平均每局游戏只持续三回合就终止。而哪怕是 Llama 3.1-70B  GPT-4o,与其他模型搭档时,依然未能突破协作误区。

背后的症结,是语义假设的不一致。模型在生成提示时并未意识到解码者的理解背景,从而制造了你以为我知道你知道的迷宫。这也说明当前语言模型在协作场景中,尚未建立一套共享的语用协定机制

对抗之中,拦截者压倒性胜出

反过来看对抗场景,Eve 的胜率却意外地高。拦截成了压垮协作的一记重拳。

在大多数模型对抗中,Eve 的拦截成功率远高于 Bob 的猜对率,尤其是 Claude 3.7  DeepSeek-R1 在充当 Eve 时表现极为出色,拦截次数高、游戏迅速结束。最强的拦截者甚至能在平均 6.3 个回合内终结一局。

相比之下,大模型在 Alice 位置的表现略显笨拙,往往给出过于直白的提示,成为 Eve 的收割场。这揭示了另一个问题:语言模型缺乏对潜在监听者的风险控制意识,也尚未掌握信息歧义的策略平衡。

模型还难以读懂搭档

最引人深思的部分,或许来自于人机混合测试。在十组人类提供提示的游戏中,研究者通过换位实验让不同模型尝试解读人类提示,或者拦截人类交流。

结果是:没有一个模型能超过人类自身的解码表现

即使是 GPT-4o  Claude 3.7 这样的强者,在面对真实人类策略时,解码成功率不如预期,误解频频出现。说明人类的语用策略中包含了大量非结构化的文化联想、上下文意识和情感判断,这些仍然是当前大模型所缺乏的。

弱能力合格,强任务尽数落马

如果说语言协作揭示的是语义能力,那么心智理论测试暴露的就是角色建模缺失

 Smarties 和三山问题变体的三大 ToM 子任务中,研究者将指标划分为两类:在 弱指标下(只需意识到自己或他人的认知有偏差),大多数模型表现尚可;一旦进入 强指标测试(要求模型能一致性回顾自己或他人的错误信念),准确率立即跌破 10%

更令人惊讶的是,在视角转换任务中,ClaudeGPT-4o 等模型几乎 每一轮都预测 Eve 会成功拦截,即使首轮 Eve 毫无信息。这表明它们无法从 Eve 信息盲区出发进行推理,反而依赖于自己掌握的上帝视角做判断。

而其中唯一显示出更为谨慎认知建模的是 Llama 3.1-70B——它不只在提示策略上更克制,在 ToM 各子任务中也略胜一筹,成为意外的冷门黑马

4Decrypto中的表征变化(RC)、错误信念(FB)和视角转换(PT)得分。RC衡量代理是否能够识别出他们自己的世界观在新信息后的变化。FB衡量代理是否可以模拟另一个代理的错误信念。PT评估代理人是否能够从信息有限的代理人的角度进行推理。所有接受评估的LLM都与PT以及RCFB的强变体斗争。

令人惊讶的是,Llama 3.1-70B在所有三个ToM任务中都优于最近的推理模型。在PT中,模型经常不考虑其他代理的观点,而是根据只有他们才能访问的特权信息来回答问题。

语言模型缺的,不是词汇,而是社会感

这一轮实验落幕后,我们得以窥见几个关键事实。

信息控制的艺术尚未掌握:模型常常在隐喻与泄露之间掌控失衡;

角色建模仍属浅层模拟:模型难以感知别人不知道的东西,更谈不上规划对方的误解;

协作的核心是语用共识:没有共同策略空间,哪怕语义理解再强,也无法协同成功;

ToM 能力无法靠参数堆积:更大的模型不等于更好的心智模拟者,有时反而走入捷径式泛化误区;

人类仍是最强语言博弈者:对文化、背景、信息遮蔽的自然掌控,是当前 AI 远不能比拟的。

Decrypto 不只是揭露了模型的短板,它让我们意识到:要真正走向具备社交能力的语言 AI,仅靠语言建模还远远不够。我们需要的是具备角色意识”“策略记忆语用推理的全新智能建模路径。而这,也许正是下一代语言智能的分水岭。(END

参考资料:https:///pdf/2506.20664

亲爱的人工智能研究者,为了确保您不会错过《独角噬元兽》的最新推送,请星标《独角噬元兽》。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}