丘成桐先生认为“数学在人工智能和大数据领域发挥重要作用,不仅是算法和技术的核心基础,更是理解大数据深层含义的关键。许多曾被认为抽象的数学理论,如今已经成为解决科学、技术、经济与社会核心问题的具体工具。”丘先生这句关于AI基础的论断,如今为深陷“幻觉”泥潭的大语言模型指明方向。当AI在医疗诊断中把肺炎的咳嗽、发热、呼吸困难误判为感冒,轻描淡写地建议“多喝水休息”时,患者可能错失最佳治疗窗口;当律师提交的AI生成法律文书中赫然出现“《民法典》第1234条”这样的虚构法条时,不仅面临法庭罚款,更让本就紧张的司法资源白白浪费;当科研人员循着模型编造的《量子面条理论》参考文献追踪研究时,宝贵的学术精力正被引入不存在的歧途。
这些看似孤立的幻觉现象,实则暴露了生成模型的底层缺陷:其知识空间如同微分几何中带有“奇异点”的流形 – 那些违背逻辑事实的错误信息隐藏在曲率突变的异常区域,而模型生成内容的过程,恰似缺乏严谨导航时误入这些陷阱的路径偏差。当AI的概率迷宫遇上微分几何的逻辑灯塔,丘先生所创立的几何分析能否成为校准认知偏差的数学罗盘?跨域数学与人工智能的对话,或许正孕育着消除AI幻觉的根本性突破。
|
|
|
图1. Sora产生短视频中的幻觉。
想像与幻觉
所谓“AI幻觉”就是AI模型输出的虚假、不准确或不符合事实的信息,这些信息通常看起来具有说服力,但实际上是错误的或者与现实世界不符的(违反物理定律、生物定律等等)。例如图1中,Sora生成的短视频,看上去非常逼真,但是有很多荒谬之处。例如“草坪上的小狗”视频,小狗一会儿是3只,一会儿是4只,这显然违反了生物和物理定律;“杯子的红酒”视频中,酒杯还没有还没有倾倒,红酒就已经泼洒出来,违反了流体力学;“四足蚂蚁”视频违反了生物定律等等。图2是文生图中常见的幻觉,当我们给出提示词“兔子和乌龟”,模型生成龟身兔头的生物。这是基于令牌(Token)的生成模型常见的幻觉。反之,所谓“想像”就是AI模型输出的真实、准确和符合事实的信息,满足所有的物理定律、生物定律等自然法则。这些生成的数据可能并不完全与训练样本重合,但是符合训练集的统计规律。
图2. 文生图的幻觉,rabbit and turtle.
流形分布定则
我们下面用相对严密的数学语言来精确区分“想像”和“幻觉”。首先,生成模型是基于“流形分布”的数据科学原理。所谓的“流形”可以看成是曲面的高维推广。如图3所示,弥勒佛曲面是一个二维流形嵌入在三维空间之中。曲面上每个点需要三个坐标来描述,因此点是三维的;假设有一只蚂蚁在曲面上爬行,在每一点处,蚂蚁的活动方向只有两个自由度,因此曲面是二维的。如图所示,我们可以将曲面连续映射到二维平面上,曲面上任意一点对应平面上一点,从而实现降维。更进一步曲面上有一个概率分布,我们用曲面上采样点来表示,被映射推前到平面上,成为平面区域上的一个概率分布,用平面上的采样点来表示。反过来,原始三维空间中的曲面和测度可以被映射和平面数据所表示,,。
|
|
|
图 3. 弥勒佛曲面和其在平面上的嵌入。
如图4,我们考察LeCunn的MNIST手写体数字训练集,每个样本是LeCunn从信封上扫描得到的28×28的灰度值图像,可以被抽象成一个784维空间中的点 ,MNIST数据集 包含有限个离散点,构成一个离散点集(亦称点云)。图像空间中的任意一个点都是一幅灰度图像,但是只有很少的一部分是手写体数字图像,即这个子集为。离散点集是的离散采样,如果采样密度足够,那么的拓扑和几何性质可以用来逼近。Hinton的工作验证了是一个二维的流形(即一张曲面),嵌入在784维的图像空间之中。图4右帧,Hinton的t-SNE算法将映射到平面,,这一映射是连续双射(拓扑同胚),从数据流形到隐空间,被称为编码映射(encoding),每个图像样本的像被称为是一个隐变量,或者特征向量。被称为是解码映射把每一个隐变量变换成原始图像。
|
|
|
图 4. LeCunn的MNIST 训练集;Hinton的t-SNE的降维。
更进一步,我们考察10个手写体数字从0到9,每个数字对应着数据流形上的一个概率分布,其密度函数为,概率测度的支集记为,
显然,每一幅图像表示唯一的数字,因此这些支集彼此没有重叠。编码映射将映到隐空间,将概率测度推前到隐空间成为,被称为隐数据分布。为隐数据分布的支集:令为任一可测集合,则其测度定义为
从图中可以看出,隐分布支集彼此之间相离,被很大的空隙所隔开。那么原始数据流形和原始数据分布可以被编码和解码映射和隐空间数据概率分布,所表示,
那么,在AI生成模型中如何表示编解码映射和呢?答案是深度神经网络的“万有逼近定律”。Kolmogorov和Arnold在证明希尔伯特第13问题的过程中提出了Kolmogorov-Arnold表示定理:任何连续的多变量函数都可以被单变量连续函数与二元加法算子的有限复合所表示。深度神经网络本质上就是这一定理的计算机实现,无论是CNN,DNN还是Transformer,万变不离其宗。理论上,如果存在连续映射,那么比如存在Kolmogorov-Arnold逼近,即对于任意,都存在深度神经网络逼近,误差小于。
图 5. UMap 嵌入和采样。
那么理论上是否存在呢?Whitney流形嵌入定理断言其存在性: 任意光滑、维实流形可以被光滑嵌入到维欧式空间之中。笔者认为目前广为流传的流形降维算法UMap本质上是受到了Whitney流形嵌入定理证明的启发。首先,我们为流形找一族有限开覆盖,这里是开集,局部可以嵌入到中(例如用主成分分析PCA方法),。我们为有限覆盖构造单位分解(partition of unity), 然后用单位分解将局部嵌入粘贴成整体嵌入,将流形嵌入到非常高维的欧式空间之中。然后Whitney应用技巧,将流形的嵌入像随机向的余一维子空间投影,Whitney说投影的像以概率一还是嵌入(即没有自相交),这样我们将流形嵌入到之中。重复使用Whitney技巧,不停地投影,Whitney说我们可以保证降到维。
图5显示了我们用UMap将MNIST曲面降维到平面隐空间,一共有10个隐数据分布的支集。我们在隐空间采样了100个特征向量,通过解码映射生成对应的图像。我们看到,如果隐特征向量落在隐分布的支集中,所生成的图像可以清晰辨认出数字;如果隐特征向量落在支集之间的空白处,所生成的图像模糊不清,难以辨认。这种情况被称为是模式混淆,是一种常见的幻觉。由此可见,如果数据分布学习得不准确,会产生错误的输出,引发幻觉。
生成模型框架
那么,在AI生成模型中,如何表示隐空间数据分布呢?(这里,)。答案是可逆传输变换,这里是已知的概率分布,例如单位球内部的均匀分布,整个隐空间的高斯分布,任何用计算机伪随机数算法可以生成的概率分布,通常称为白噪声。传输变换将映成,将概率分布变换成,即。因为已知,给出了数据分布的表示。如图所示,左帧是长方形内的均匀分布,有个胞腔分解,每个胞腔用不同的颜色来标识;右帧是MINIST的隐数据分布,具有相应的支集。传输映射将左侧的胞腔映到右侧同颜色的支集上,胞腔的边界映到支集的边界,(支集之间的空白被传输映射所忽略)。再一次,由Kolmogorov-Arnold表示定理,可以由深度神经网络来逼近,由此AI模型可以充分表达任意的数据分布。
由此,我们看到根据流形分布定则,本质上训练集在数据流形上采样来逼近数据分布,AI生成模型学会了两件事:1. 用编解码映射来表达数据流形;2. 用传输映射来表达数据分布。而根据Kolmogrov-Anorld表示定理,编解码映射和传输映射都由深度神经网络来逼近。将这些模块相结合,我们得到了一般生成模型的框架。
图6. 生成模型的框架。
如图6所示,生成模型的训练过程如下:我们先用训练集来训练,得到编码和解码映射,然后通过训练得到传输映射。生成模型的推理过程如下:由计算机生成中符合分布的白噪声,假设其中一个样本为 ; 传输映射将样本映入隐支集中, ;解码映射将隐特征向量映成手写体数字图像。
生成模型产生的样本是“想像”,如果样本落在数据流形之上,并且落在数据分布的支集之内(或者边缘);生成模型产生的样本是“幻觉”,如果样本落在数据分布的支集之外。

“幻觉产生”的原因
但是,目前AI领域的主流都忽略了Kolmogorov-Arnold表示定理的前提:所逼近的映射必须是连续的,即通常的深度神经网络只能表达连续映射。2018年菲尔兹奖得主Alessio Figalli的工作表明,通常情形下传输映射并不是连续映射,中存在奇异集合,映射在上间断。因此,深度神经网络无法精确表达传输映射。无法准确学习和表示数据分布,这是幻觉产生的核心原因。
首先,Brenier极分解定理断言所有满足的传输映射可以分解成两个映射的复合:,这里是从到的最优传输映射,满足自然边界条件,而是保测度映射。同一个Arnold将所有保体积(保勒贝格测度)的微分同胚视为一个无穷维李群,理想不可压缩流体的欧拉方程成为这个无穷维流形上面的测地线方程,从而为理论流体动力学提供了几何和拓扑框架。
这里最优传输映射定义如下:考察所有的传输映射,满足,总传输代价定义为:
其中总传输代价最小者被称为是最优传输映射。Brenier定理断言最优传输映射的存在性和唯一性,并且最优传输映射等于某个凸函数(Brenier势能函数)的梯度,Brenier势能函数满足蒙日-安培方程(Monge-Ampere Equation)
这里, 是密度函数。蒙日-安培方程是强烈非线性椭圆型方程。
图 7. Figalli给出的反例,传输映射不连续。
Figalli给出一个例子,如图7所示,我们考察从平面圆盘内部的均匀分布到右侧不规则区域内部的均匀分布之间的最优传输映射,圆盘内部的黑色曲线代表奇异集合,最优传输映射在奇异集合上间断。从Brenier势能函数角度而言,在上几乎处处光滑,但在奇异集合上只有连续而不光滑,因此在奇异集合上间断。这个最优传输映射无法直接用深度神经网络来表达。
如果我们能够计算Brenier势能函数,就可以计算最优传输映射,同时找到奇异集合,而奇异集合对应着支集的边界。如果具有多个连通分支,,彼此相离,那么奇异集合在广义梯度映射下的像覆盖之间的空隙。因此,如果我们能够精确求解最优传输映射,就可以准确求出数据概率分布支集的边界。而计算最优传输映射归结为求取蒙日-安培方程。
图 8. 闵可夫斯基问题:凸曲面由高斯曲率所决定,可归结为球面最优传输。
早在1993年,丘成桐先生就提出了上百个微分几何领域的开放问题,其中一个就是发明数值方法求解闵可夫斯基(Minkowski)问题。这个问题是凸几何中的刚性问题:如何通过高斯曲率来恢复一个凸曲面的形状。这个问题可以转化为球面最优传输问题,最终也归结为求解球面蒙日-安培方程。丘先生指导笔者团队在2013年通过几何变分法求解欧式空间的最优传输问题,在2019年发展了球面最优传输问题的求解算法,从而解决了这个公开问题。用这种方法,我们可以精确求出奇异集合,从而准确求得数据概率分布支集的边界。
图 9. 数据流形边缘检测实验设计。
我们用这种方法来检测数据流形的边缘。如图9 所示,我们设计了人脸彩色图像的生成模型,图像空间维数为三百万, 隐空间为150维左右。我们用自动编码器训练得到编解码映射和,然后用几何变分法求得从均匀分布到隐数据分布的最优传输映,通过的法向量求得奇异集合。我们在中设计几条线段, 每条线段被传输映射映成隐空间的曲线段(红色,绿色线段), 再被解码映射映成数据流形上的曲线段。每个曲线段是一个短视频,从一张脸变形成另外一张脸。如果线段(中蓝色线段)与奇异集合(中黑色曲线)相交,则数据流形上的曲线会穿越数据流形的边界,我们会产生这样的一些人脸图像:这些人脸图像符合生理学规律,但是在现实生活中遇到他们的概率为零。图10 显示了这样的曲线,我们从棕发棕眼的男孩开始,到金发碧眼的女子结束,中间出现了一只眼睛为蓝色一只眼睛为棕色的人脸(异瞳人脸),训练集中并没有异瞳人脸,这些异瞳人脸正是在人脸图像流形的边缘,他们貌似合理,但是现实生活中遇到他们的概率为零。这个实验表明了如下几点:a.数据流形存在边缘,边缘处可以产生训练集中没有涵盖的样本;b. 数据流形的边缘对应着最优传输映射的奇异集合,可以用我们的几何变分方法计算出来;c. 数据流形边缘最有想像力,同时也可能代表物理、生物定律的限制,应当小心对待。
图 10. 人脸图像流形边界附近的人脸。
如果我们能够准确找到数据流形的边缘,并且这些边界代表自然定律的界限,那么在生成样本的时候我们需要小心不要逾越边界,从而避免幻觉的发生。例如Sora生成的小狗视频中,所有的3只小狗的图像构成一个概率分布,所有4只小狗的图像构成另外一个概率分布。由于自我遮挡,4只小狗有时候看上去像是3只小狗,这些图片位于支集的边界与接触,但是Sora算法无法捕捉的边界,轻易穿越到,造成了幻觉。这里的边界具有物理意义,逻辑上不应该穿越。
Sora生成的红酒视频中,酒杯有两种稳恒态:直立状态和水平躺倒状态,还有一个从直立到倾倒的过渡态。我们很容易从稳态中收集样本,因此Sora产生了稳态图像;从过渡态收集样本非常困难,因此Sora没有生成过渡态图像。但是对应人类感知而言,过渡态是理解物理过程的关键。稳恒态对应的概率分布支集的边界是过渡态,过渡态的样本生成至关重要。
|
|
|
图 11. Brenier势能函数的非光滑点对应着最优传输映射的奇异集合,对应着数据分布支集的边界。
目前最为流行的生成模型是基于扩散过程的模型。对于任意的数据分布,所谓的熵流对应的就是扩散过程,在扩散过程中概率分布的熵单调递增,最后到达最大值。给定期望和方差的概率分布中,熵最大者为高斯分布。因此,扩散过程就是给出从数据分布到高斯分布的传输映射。扩散过程可以用郎之万动力学(Langevin dynamics)来模拟,即每个粒子加上白噪声随机游走,即可到达高斯分布。扩散模型的好处是不需要显示表达概率密度,所有粒子可以并行独立随机游走。但是其缺陷在于模糊了概率分布支集的边界,最后求得的传输变换(逆扩散)给出的数据分布精度较低,无法得到确切支集边界信息,生成真实数据分布之外的样本,形成幻觉。这再次证明了数据分布支集边界具有生物学意义,在真实图像生成的任务中不容随意穿越。
图12. 通过掌握数据分布支集的边界,我们可以精确地合成跨物种生物。上排:真实的生物图像;下排,从左到右:介于狗和猫、狗和豹、狗和狐狸之间的生物。(汪展鹏作)
如图11所示,我们用几何变分方法计算最优传输映射,求得Brenier势能函数。通过势能函数的非光滑点(法向量突变的点),我们可以求得传输映射的奇异集合(右帧黑色曲线),奇异集合对应着数据概率分布支集的边界。如图12所示, 通过掌握数据分布支集的边界,我们可以精确地合成跨物种生物。图中上排是真实的生物图像。我们求出不同物种图像的数据分布边缘,然后在猫的分布边缘和狗的分布边缘之间找到最短连线,沿着连线生成介于猫和狗之间的图像,如左下角所示。同样的,我们可以生成狗和豹、狗和狐狸之间的生物。这显示了这种方法的想像力和泛化能力。
在目前流行的文生图应用中,图像生成模型和大语言模型相结合,图像隐空间与语义隐空间之间建立映射,可以从语言提示映到图像隐空间,从而根据提示生成图像。人们将语言模型的令牌概念引入图像领域,将图像分解成很多子图像作为令牌,然后将令牌作为样本进行训练。如图2所示,虽然生成的每个令牌看上去非常逼真,但是令牌之间的概率分布没有精确学会,因此虽然局部上生成质量很高,但是整体上严重失真。这需要我们加强令牌间联合概率分布的学习,即令牌上下文概率分布的学习。我们可以将每个令牌的所有可能视为一个令牌数据流形,所有令牌组成的图像构成图像数据流形,图像数据流形为令牌数据流形的乘积流形,令牌间的联合概率分布定义在乘积流形之上,从而构造层级学习结构,以减少幻觉。
小结
生成式大模型可以从微分几何观点用流形分布原理来解释:每个数据样本被视为高维背景空间中的一个点;所有数据样本的集合可以被描述为背景空间中的点云,包含在某个低维数据流形中,流形维数远远低于背景空间维数;同时数据样本集合在数据流形上具有特定的概率分布。大模型的训练过程可以用微分几何形式归纳为:1) 学习数据流形的拓扑几何结构; 2)学习数据在流形上的概率分布。大模型的推理过程归纳为在数据分布上采样。数据流形的拓扑几何结构通常用编码、解码映射来表示;Whitney流形嵌入理论保证映射的存在性,UMap算法仿照了定理的证明;数据概率分布通常用传输映射来表示:传输映射将已知的高斯白噪声映射到数据分布。
深度神经网络可以万有逼近任意多元连续函数,目前的各种深度神经网络CNN, DNN, Transformer都是Kolmogorov-Arnold定理的算法实现。K-A定理证明了任意多变量、连续函数都可以用单变量函数和加法算子的有限次复合来表示;但是K-A方法无法直接表示不连续函数;目前AI生成模型中的编码、解码映射和传输映射由深度神经网络来表示。但是菲尔兹奖得主Villani和Figalli的工作指出传输映射非连续,目前AI生成模型无法准确学会。概率分布支撑集合边界代表自然定律的限制,往往具有物理、生物或者数学的意义,在自然界中不可逾越。传统生成模型的穿越行为,造成了幻觉。扩散模型将数据分布变成高斯分布,粗糙近似,模糊了数据分布支撑集合的边界信息,引发模式混淆和幻觉。
丘先生与笔者团队提出的AE-OT(AutoEncoder-OptimalTransport)生成模型,有望从根本上克服了模式坍塌、模式混淆和幻觉问题。AE-OT生成模型解耦了数据流形的拓扑结构学习任务和数据概率分布的学习任务,前者用Auto-Encoder等AI方法,后者的实现运用了我们发明的几何变分方法求解最优传输问题。AE-OT能够精确求得非连续的概率分布传输变换(而非粗糙近似),严格确定了概率分布支撑集合的边界。AE-OT模型自身在生成过程中避免穿越概率分布支撑集的边界,从理论上保证杜绝产生谬误,防止幻觉。AE-OT模型可以与现有生成模型结合,提供精确的数据概率分布信息,当生成过程接近分布边缘时提出警告,防范幻觉。
最优传输理论寻求最经济的方法实现概率分布之间的变换。Brenier极分解定理断言任何传输变换都可以分解成最优传输变换与保勒贝格体积的变换,因此最优传输变换决定了整个变换的连续性。Brenier定理将最优传输问题归结为求解强烈非线性的蒙日-安培方程。丘成桐先生于1993年提出了100多个微分几何的开放问题,其中包括求解闵可夫斯基问题,等价于解球面蒙日-安培方程。2013年丘先生与顾教授团队用几何变分原理提出了蒙日-安培方程的求解算法;2019年解决了闵可夫斯基问题-最优传输问题。这个理论结果被直接用于提高AI生成模型的质量。
历史的发展会让我们看到,几何分析正在为生成式AI提供严谨坚实的数学基础,有了因果逻辑的指导,概率模型有望从根源上消除AI幻觉。
请长按下方二维码,选择“识别图中二维码”,即可关注。
【老顾谈几何】邀请国内国际著名纯粹数学家,应用数学家,理论物理学家和计算机科学家,讲授现代拓扑和几何的理论,算法和应用。