你看到的不是世界本身,而是大脑对世界的“解释”——预测编码:从视觉皮层到 Transformer,误差是怎么统治世界的?

自 Hubel 与 Wiesel 发现视觉皮层的分层感受野以来,神经科学逐渐意识到:大脑并非一个自下而上堆叠特征的流水线。相反,真实皮层中存在着数量惊人的自上而下反馈连接——它们不像“数据通路”,更像一个不断提出假设、不断修正偏差的系统。


预测编码正是把这种结构写成算法:高层产生预测,低层只上传“预测误差”,学习的目标不是匹配输入,而是最小化无法解释的部分。它既是一套神经理论,也是一种深刻影响了现代 AI 审美的思想源头。从自监督学习到生成模型,从世界模型到 Transformer 的 next-token prediction,我们正越来越多地发现:世界不是被识别的,而是被解释、被压缩的。

我们习惯认为,大脑的任务是尽可能精确地“接收外界信息”:视网膜把光信号送上来,听觉皮层把声波解析出来,然后逐层加工,最终得到一个对世界的“忠实表示”。但如果你真的去看皮层的解剖结构,会发现一个奇怪的事实:反馈连接(top-down feedback)并不比前馈连接少,有时甚至更多。如果大脑只是“被动接收信息”,这些反馈到底在干什么?

一、为什么皮层需要如此大量的反馈连接?

Hubel 和 Wiesel 在 20 世纪 60 年代的工作,奠定了现代视觉神经科学的基础:V1 中存在对边缘、方向敏感的简单/复杂细胞;感知似乎是一个逐级抽象的过程。这条线索后来直接影响了 CNN 的诞生。但问题在于:如果感知只是自下而上提取特征,为什么大脑皮层里存在如此密集的自上而下通路?这些通路既不直接驱动肌肉,也不携带更“原始”的感觉信号。它们的存在,暗示着另一种计算逻辑。


预测编码给出的答案极其激进,却异常简洁:前馈通路主要传递“预测误差”;反馈通路主要传递“预测本身”。也就是说:高层皮层始终在对低层的输入做出预测;低层并不上传全部感觉信号,只上传 “我没被你预测到的那一部分”。在这个框架下,大脑的目标不再是“忠实复刻外界”,而是用尽可能简单的内部模型,解释尽可能多的感觉输入。

二、把直觉写成算法

Rao 与 Ballard 在 1999 年的工作,第一次把预测编码明确写成一个可计算模型。他们提出:每一层皮层都维持一个对下层活动的生成性预测;神经元的活动,编码的是预测与实际输入之间的差异;学习规则就是调整内部模型,使预测误差最小。


这不仅能解释经典的感受野现象,还能解释许多看似“反常”的神经响应,例如:为什么重复刺激会引发响应衰减;为什么预期会改变知觉强度。

Karl Friston 在 2005 年进一步把预测编码,嵌入到一个更宏大的理论视角中:皮层计算的核心目标,是最小化预测误差。在这个视角下:神经活动,是误差的瞬时表示;学习,是对生成模型参数的更新;感知,本质是一种反向推断(inference):从感觉信号反推出最可能的外界原因。


这一步非常关键。它把“预测编码”从一个视觉皮层模型,提升为一种通用的皮层计算原则。

三、在深度学习中的意义

CNN 的灵感确实来自视觉皮层,但主要来自:局部感受野,权重共享,分层结构,而不是预测编码意义上的“误差回路”。CNN 的核心仍然是:前向计算 全局误差 反向传播。

Rumelhart、Hinton 和 Williams 在 1986 年提出的反向传播,是深度学习最关键的工程突破。但它长期存在一个争议:要求严格的权重对称;要求全局误差信号精确传播;在真实神经系统中缺乏直接对应机制。这也是为什么后来会出现 Feedback Alignment 等工作:它们试图证明,误差信号并不需要“那么精确”,系统依然可以学习。

2017 年的 Transformer,并没有直接应用预测编码;但它在做的事情,却与预测编码高度一致:

学习目标:next-token prediction
本质操作:用内部模型解释上下文,并预测未来
学到的不是标签,而是世界的统计结构


Transformer 的巨大成功,证明了一件事:只要预测目标足够丰富,模型就会被迫学到深层结构。

四、预测编码能做什么“真东西”?


预测编码在工程上至少有三类现实价值。


1. 鲁棒感知:去噪、补全、异常
预测编码的基本循环是:解释不足 → 产生误差 → 修正模型。这使它天然适合:在噪声环境下维持稳定感知;在信息缺失时做合理补全;把“预测失败”直接当作异常信号。

2. 自监督学习:误差就是监督
预测编码本质上是一种极早期的自监督思想:不需要人工标签;“下一步/下一层无法解释的部分”就是学习信号。在数据稀缺、标注昂贵的领域,这一点尤为重要。

3. 具身系统:感知–行动闭环更自然
当智能体的行动会改变输入分布时,固定的分类器往往立刻失效。而预测编码天生适合这种闭环系统:动作改变感觉;感觉偏离预测;误差驱动更新。

结语


预测编码真正颠覆的,并不是某个具体算法,而是我们对“信息”的理解方式。


在这个框架里:世界不是被动输入的;感知不是复制现实;智能不是把题答对。智能,是在不确定中维持一个可被解释的世界。



参考文献(精选)
- Hubel & Wiesel (1962). Receptive fields of neurons in the visual cortex.
- Rao & Ballard (1999). Predictive coding in the visual cortex.
- Friston (2005). A theory of cortical responses.
- Rumelhart, Hinton & Williams (1986). Learning representations by back-propagating errors.
- Lillicrap et al. (2016). Random synaptic feedback weights support error backpropagation.
- Vaswani et al. (2017). Attention is All You Need.

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}