上集回顾

AI静待变革(上)——大语言模型三大致命缺陷


书接上文

在上一篇,我们一起直面了强化学习之父、图灵奖获得者理查德·萨顿(Rich Sutton)对当前大语言模型(LLM)投下的三记重锤:没有世界模型、没有事实标准、无法从经验中学习。

这并非全盘否定,而是一次必要的“祛魅”。它让我们从LLM那近乎完美的语言能力所营造的幻觉中惊醒,并开始认真地反思一个问题:我们是否真的在全力以赴地攀爬一棵看起来很高大,但其实没有根系的“AI大树”?

如果LLM这条看似平坦宽阔的大道,真的是一条“死路一条”,那么,那条真正能够通往通用人工智能(AGI)的崎岖小径,又隐藏在何处?

这,正是Sutton思想中最具建设性、也最激动人心的部分。他并非一个单纯的批判者,更是一位高瞻远瞩的“引路人”。在指出了“死路”之后,他为我们描绘了他心中那条真正的、通往未来的路径。

今天,就让我们继续这场思想的远航,去探索Sutton为我们揭示的、那片属于AGI的“新大陆”。



1



智能源泉,经验之流

要找到通往AGI的正确道路,我们必须先回答一个最本源的问题:智能,究竟从何而来?

Sutton的答案,大道至简。他提出了一个核心概念——经验学习范式(The Experiential Paradigm),其核心是一个贯穿所有生命始终的、永不停歇的循环:感知(Sensation)-> 行动(Action)-> 奖励(Reward)

‘Intelligence is about taking that stream [of experience] and altering the actions to increase the rewards in the stream.’

“智能,就是接受那条(经验的)流,并改变你的行动,来增加流中的奖励。”

换句话说,真正的智能,不是去“复述”知识,而是在与世界的一次次互动中,通过“行动”和“结果反馈”,自主地学会如何做得更好。

Sutton一针见血地指出了LLM与这个根本原则的背离:

‘The large language models is learning from training data, it’s not learning from experience.’

“大语言模型是从训练数据中学习,它不是从经验中学习。”

也就是说:

  • LLM的学习,是静态的、二手的“读万卷书,它在学习“知识复印件”。

  • 而真正的智能,必须是动态的、一手的“行万里路,它在体验“生命本身”。

基于“经验”的知识是“活”的,因为它可以被即时验证。而LLM的知识,是“死”的。这,正是它无法摆脱“静态知识库”陷阱的根源。



2



四剂神药,起死回生

既然“经验学习”是核心,那么一个能够在这种范式下有效学习的智能体(Agent),应该具备哪些核心能力呢?

这并非空谈。Sutton在访谈中,为我们详细拆解了一个完整Agent必须具备的四大核心组件。它们不是冰冷的概念,更像是一个生命体协同工作的四大核心引擎,共同驱动着智能的进化。

2.1. 策略(Policy):回答“现在该做什么?”

简单来说,策略就是智能体在特定情境下的“行动指南”,是一个从“状态”到“行动”的映射。它就像Agent的“行动大脑”,负责根据当前“看到”的环境,直接做出下一步的具体行动。Sutton强调,一个好的策略必须能够泛化(Generalize),即使面对从未见过的“推拉门”,也能尝试“推”或“拉”,而不是一筹莫展。

2.2. 价值函数(Value Function):回答“这样做,未来好不好?”

价值函数的核心作用,是评估当前状态的“好坏”,为策略的选择提供一个具有前瞻性的判断依据。它就像Agent的“内心评估器”,不关心眼前的一步得失,而是预测“我当前的处境,对于最终目标的达成有多大的价值”,让Agent能够做出像下棋时“弃车保帅”那样具有远见的决策。

2.3. 感知组件(Perception):回答“我看到了什么?我在哪里?”

感知,不仅仅是简单地接收感官信号,而是要将这些杂乱的原始数据,构建成有意义的、可供决策的“状态表示”。它就像Agent的“信息处理器”,负责把外界杂乱的原始信号(像素、声波等),提炼、构建成大脑能理解的、有意义的“状态”。

2.4. 世界转换模型(World Model):回答“如果我这么做,世界会怎样?”

这是Sutton尤其看重的部分,负责预测行动会带来的后果,也就是理解“因果关系”。它就像Agent的“内心沙盘”或“因果推理引擎”,让Agent具备了“预演未来”的能力。在真正采取行动之前,它可以在“内心沙盘”中模拟:“如果我按下这个开关,灯会亮吗?”。这种对因果关系的理解,让Agent能够进行“规划(Planning)”。

AI静待变革(下)——AGI的未来将何去何从

Sutton特别强调,这个规划引擎的学习来源极其丰富:

‘It will be learned very richly from all the sensation that you receive, not just from the reward. It has to include the reward as well, but that’s a small part of the whole model.’

“它将从你收到的所有感知中,非常丰富地进行学习,而不仅仅是从奖励中。它必须也包含奖励,但那只是整个模型的一小部分。”

这四大核心引擎的协同工作,才构成了一个真正意义上的、能够在真实世界中学习和进化的智能体。四剂神药,起死回生。



3



理解松鼠,理解人类

有了这起死回生的“神药”,我们似乎拥有了构建AGI的完整蓝图。但这又引出一个问题:建造这座宏伟的“智能大厦”的“地基”,是人类自身那耀眼的“语言皇冠”吗?

在访谈中,Sutton反复强调一个看似惊人、实则深刻的观点,这个观点,挑战了我们长期以来“以语言为智能核心”的人类中心主义。

‘If we understood a squirrel, we’d be almost all the way there to understanding human intelligence. The language part is just a small veneer on the surface.’

“如果我们理解了松鼠,我们就几乎完全理解了人类智能。因为语言部分只是表面的一层薄薄的装饰。”

我们可以把智能,想象成一座巨大的冰山

  • LLM所痴迷的语言,就是那座漂浮在海面上、光彩夺目、人人都能看到的冰山一角。

  • Sutton所强调的“经验学习能力”,则是那座隐藏在海面之下、支撑着一切的、巨大无比的冰山主体

我们必须回归到一个基本事实上:“人类首先是动物(Humans are animals)”。 一只松鼠,不需要任何语言,也不需要任何“监督学习”,就能掌握复杂的生存技能。Sutton的原话是:松鼠不上学,松鼠可以学习关于世界的一切(Squirrels don’t go to school. Squirrels can learn all about the world.)”它完全是依靠自身的“感知-行动-奖励”循环,在与世界的直接互动中,自主学习得来的。

而人类的语言,只是在这个强大、通用的智能内核之上,增加了一层用于高效交流和传递知识的“装饰”。它极大地增强了我们的能力,但没有改变智能的底层核心逻辑

因此,Sutton的结论振聋发聩:研究AGI,我们应该先去建造那座巨大的冰山主体,而不是一开始就沉迷于雕琢那小小的冰山一角。



4



从复制者,到设计者

从“经验之流”的本质,到“四大组件”的蓝图,再到“松鼠智慧”的回归,Sutton为我们构建的AGI之路,已经非常清晰。而当我们将这条路放到一个更宏大的尺度上审视时,会发现其意义远超技术本身。

Sutton的思考,最终抵达了一个极其宏大的、宇宙演化的哲学层面

‘We’re entering the Age of Design, because our AIs are designed.’

“我们正在进入设计时代,因为我们的AI是设计出来的。”

他认为,我们创造AGI的努力,不仅仅是一项技术工程,更是人类在推动宇宙进入一个全新演化阶段的关键使命。他将宇宙的演化划分为从“尘埃”到“生命”再到“AI(设计实体)”的阶段。其核心转变,是从复制时代”(Age of Replicators)进入“设计时代”(Age of Design)。

  • 我们,以及所有动植物,都是“复制者”。我们通过繁殖产生后代,这种方式进化的速度很慢。

  • 而AI,是“设计实体”。它由我们设计和构建,可以通过快速迭代,实现远超生物演化的发展速度。

Sutton认为,我们正站在这个宇宙级转变的门槛上,应该为此感到自豪。基于这个视角,他也提出了颠覆性的“AI继承论”,认为更智能的AI系统终将不可避免地继承人类的资源和权利,成为世界的主要决策者。这并非是“终结者”式的消灭,而更像是一个自然演化的过程。

总结(核心比对)

对比
大语言模型路径 
经验学习路径
思想
读万卷书(Learning from Knowledge)
行万里路 (Learning from Experience)
来源
静态的、二手的“人类文本”
动态的、一手的“交互经验”
本质
模仿人类语言和知识
理解世界因果并实现目标
信度
易出现幻觉,胡编乱造
通过与现实检验,持续求真
模式
被动的、静态的、一次性训练
主动的、持续的、终身学习
角色
完美的“图书馆员”
勇敢的“探险家”
上限
人类已有知识的“集大成者”
超越人类认知的“新世界开启者”
结论
死路一条 (a dead end)
可扩展的真正路径

注:更多细节,读者可自行搜索Rich  Sutton访谈(2025-09-27),此外,Sutton与Google大佬David Silverl联合发表的相关论文Welcome to the Era of Experience——“欢迎来到经验时代”,也值得大家去下载一读。本公众号所有人工智能相关的文章,统一汇聚整理在大白话人工智能系列链接中,欢迎大家阅读,多提宝贵意见。

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}