矩阵乘法很丑陋吗？——James Propp教授专栏

本月初的一篇讨论AI的纽约客文章似乎引起了数学读者们的众“怒”，又有一位教授“炮轰”它，捍卫矩阵乘法的美感。另请参阅：人工智能、对称性和美感——Oliver Johnson

作者：James Propp（马萨诸塞大学教授，数学家）2025-11-21

译者：zzllrr小乐（数学科普公众号）2025-11-24

几周前，我正悠闲地阅读一篇关于AI人工智能的文章，文章写得很好，内容也很翔实 https://www./magazine/2025/11/03/inside-the-data-centers-that-train-ai-and-drain-the-electrical-grid 。突然，文章中的一段话让我感到恼火。这就是对记者讨论的话题了解太多的弊端之一：记者常常会犯一些大多数读者不会注意到的错误，但这些错误却会让那些了解内情的人感到愤怒，或者至少会让他们血压飙升。

这篇文章发表在《纽约客》杂志上。作者斯蒂芬·维特（Stephen Witt）在文中描述了典型的“大语言模型”（LLM）如何从一张白纸（或者更确切地说，是一张布满随机涂鸦的白纸）开始，学习关于世界（或者更确切地说，是关于被称为互联网的虚拟世界）的知识。在整个训练过程中，数十亿个被称为权重的数值会被反复更新，从而稳步提升模型的性能。

想象一下，一个微型芯片上蚀刻着电子在通道中高速运动，然后慢慢放大画面：每个服务器节点中都有许多这样的芯片，每个机架中也有许多这样的节点，机架排列成行，每个大厅有好几行，每栋楼有好几个大厅，每个园区又有好几栋楼。这就像是计算机时代的博尔赫斯《巴别图书馆》。而所有这些无数电路执行的权重更新过程，都高度依赖于一种被称为矩阵乘法（matrix multiplication）的运算。

维特对此解释得清晰准确，直到他的文章出现了一个非常奇怪的转折。

钉钉子

以下是维特接下来对矩阵乘法的论述：

“美是首要的检验标准：丑陋的数学在这个世界上没有一席之地，”数学家G. H. 哈代在1940年写道。然而，我们文明如今投入如此多资源的矩阵乘法，却如同钉钉子般笨拙不堪。它既不美观，也不对称：事实上，在矩阵乘法中， a乘以b并不等于b乘以a 。”

最后一句话让我觉得很奇怪，完全不合逻辑，有点像在说“数字加法既不美观也不对称，因为当你把两个数字倒过来写时，它们的新和并不是它们原来的和倒过来写；例如，17 加 34 等于 51，但 71 加 43 不等于 15。”

第二天，我给杂志社寄了以下这封信：

“我赞赏斯蒂芬·维特（Stephen Witt）聚焦于矩阵，矩阵如今比以往任何时候都更值得关注：它们在生态学、经济学、物理学以及现在的人工智能领域都扮演着重要角色（《信息过载》Information Overload，11月3日）。但维特错误地将哈代的名言（“丑陋的数学在世界上没有一席之地”）引入了他的论述。

矩阵代数是对称和变换的语言， a 后接 b 与 b 后接 a 的区别并不令人惊讶；期望这两种变换完全一致，就好比在错误的地方寻找对称——就像以狗的尾巴是否像它的头来评判它的美丑一样。矩阵代数起源于中国，拥有两千年的历史，它在数学中占据了永久的地位，并且完美地通过了’美’的考验。事实上，矩阵在数论中非常常见，而数论正是哈代最钟爱的纯数学分支。”

将我的回复限制在150字以内需要一些技巧。例如，请注意开头一句就起到了双重作用：它用几句赞扬之词缓和了我大量的负面批评，并强调了主题的重要性，从而预先反驳了那些可能认为我的修改过于晦涩难懂而不值得发表的编辑。（注意，“预先preëmptively”中类似《纽约客》的分音符diaresis：既然我要批评，那我干脆就批评一下分音符吧。）

我还没收到编辑的回复，估计也不会有。不过，维特的误解值得更详尽的解释，150字远远不够。咱们看看用1500字和几张图片能写出什么来。

变换的几何学

作为静态对象，矩阵“仅仅”是数字的矩形阵列，但这并不能概括它们的本质。如果必须用一个词来表达矩阵的精髓，那就是“变换”。

变换的一个例子是操作 f ，它将平面上的图像从左到右翻转，就像在垂直镜子中一样。

另一个例子是运算 g ，它将平面上的图像沿从左下角到右上角的对角线进行反射。

这里需要注意的关键是，先用 f 再用 g 的效果与先用 g 再用 f 的效果不同。为了理解这一点，在一张正方形纸的一侧写一个大写字母 R——最好使用深色马克笔和/或半透明纸，这样即使纸翻过来也能看到 R——然后先用 f 再用 g ；你会得到原先的 R 顺时针旋转 90 度。但是，如果从原先的 R 开始，先用 g 再用 f ，你会得到原先的 R 逆时针旋转 90 度。

同样的两个操作，不同的结果！用符号表示为 g ◦ f ≠ f ◦ g ，其中 g ◦ f 表示“先执行 f ，再执行 g ”，而 f ◦ g 表示“先执行 g ，再执行 f ”。符号 ◦ 表示称为合成（composition）的元操作（对操作符的操作，对运算符的运算）。我知道这种约定乍一看可能有点反常，但这就是 ◦ 的定义。

这要归咎于那些最初使用“log x ”和“cos x ”这类符号的人，他们把 x 放在运算名称之后。这导致了f(x)的记法，用来表示将函数 f 应用于数字 x 的结果。然后，将 g 应用于 f 应用于 x 的结果，其符号为 g(f(x))；即使 f 先于 g 执行，“f” 也出现在“g”的右侧。由此，将x传递给g(f(x)) 的函数自然而然地写成了“g ◦ f”。

变换的顺序会影响结果，这并不奇怪。毕竟，做沙拉时，如果你在撒上碎奶酪后才淋上沙拉酱，客人的用餐体验就会与你先淋沙拉酱的情况截然不同。同样，创作旋律时，先用升 C 后用 D 与先用 D 后用升 C 是不同的。只要数学家们还在使用“组合”（composition）而非“乘法”（multiplication）这个词，就不会有人觉得顺序在很多情况下至关重要有什么矛盾之处。

矩阵代数

我们如何用数值方式表示前面描述的几何变换 f 和 g 呢？我们不妨使用一个正方形，并选择中心坐标，使得 (0,0) 位于正方形的中心。为了方便起见，我们将其设为 2×2 的正方形，四个角的坐标分别为 (±1,±1)。不难看出，如果在点 (x,y) 和点 (−x,y) 处分别标记一个点，那么在应用变换 f 后，这两个点的位置会互换；例如，正方形的右上角和左上角会互换位置 (x = y = 1)。

我们可以将几何变换 f 与代数替换联系起来，该代数替换对于所有介于 −1 和 1 之间的 x 和 y 都改变 x 的符号，或者用数学家的话来说，就是“将 (x,y) 映射到 (−x,y) 的函数”。这个函数可以用下面 2×2 数组表示。

更一般地说，数组

表示将 (x,y) 映射到 (ax+by, cx+dy) 的函数，其中 a、b、c、d 为任意实数。（选择 a = -1、 b = 0、 c = 0 和 d = 1 即可得到特定的数组 A。）

类似地，当应用运算 g 时，即沿连接左下角和右上角的对角线翻转正方形，(x,y) 处的点最终会与 (y,x) 处的点交换位置。我们将 g 与交换 x 和 y 的代数替换联系起来，或者说是“将 (x,y) 映射到 (y,x) 的函数”，用下面 2×2 数组表示。

这类数组称为矩阵（matrices）。当我们想将两个运算（例如 f 和 g）组合在一起时，只需根据以下规则组合相关的矩阵：矩阵

与

合成，等于矩阵

关于这个公式的由来，请参阅我的博客（数学魔法Mathematical Enchantments 文章“ 矩阵是什么？” 小乐数学科普：矩阵是什么？——James Propp教授专栏）。即使不知道这个公式的由来，你也可以将它应用于我们的两个矩阵，并验证 A 与 B 的合成矩阵与 B 与 A 的合成矩阵不同。

有一点我可以理解 Stephen Witt 的观点：如果两个矩阵的乘积仅仅是将第一个矩阵中的每个元素乘以第二个矩阵中对应的元素，那么矩阵乘法就会更简洁：

这种乘积被称为哈达玛乘积（Hadamard product，即点乘、点积），它在数学中确实扮演着一定的角色，但远不如常见的矩阵乘积那么普遍。哈达玛乘积过于对称，实用性不高，而常见的矩阵乘积则在简洁性和通用性之间取得了完美的平衡。

存在一类矩阵，其哈达玛乘积与标准乘积相等，即对角矩阵。以下是对角矩阵的乘法运算：

在神经网络领域，这类矩阵对应于一种简单的数据处理方式，其中每个输出变量都只是特定输入变量乘以一个常数。变量之间不存在串扰或交互作用。一般矩阵比对角矩阵更有用之处在于，对于一般矩阵，每个输出都可能受到每个输入的影响。

用一种略显夸张但并非完全不准确的方式来描述，当无法预先知道哪些输出取决于哪些输入时，矩阵是建模的首选工具。当然，我们不应指望矩阵是万能的；毕竟，线性代数要求每个输出都是输入的线性函数（这也是它名称的由来）。线性（linearity）是一个很大的限制。然而，奇妙的是，尽管存在这样的限制，线性代数仍然是所有科学领域中如此有用的工具。

2×2 矩阵并没有什么特别之处；你可以用两个 3×3 矩阵，甚至两个 1000×1000 矩阵来合成。反过来（从小到大），如果你观察 1×1 矩阵，它们的合成方式是：(a)和(b)合成，就是(ab)。

因此，普通的乘法运算可以看作是矩阵合成的一种特殊情况；反过来，我们可以把矩阵合成看作是一种广义的乘法运算。所以，19世纪中期的数学家们开始使用“乘法”和“乘积”这样的词来代替“合成”这样的词，也就不足为奇了。大约在同一时期，他们停止使用“替换”和“表格”这样的术语，转而开始使用“矩阵”这个词。

19世纪的代数学家们将沿用数百年的数字乘法符号引入新兴的线性代数学科时，他们实际上是在说“矩阵的行为有点像数字”，但也有例外，“除非它们并非如此”。维特说当 A 和 B 是矩阵时， A 乘以 B 并不总是等于 B 乘以 A ，这没错。但他错在断言这是线性代数的缺陷。

许多数学家认为线性代数是数学史上最优雅的分支学科之一，它常常被视为新兴数学学科应努力达到的简洁典范。如果你因为 AB 并不总是等于 BA 而讨厌矩阵乘法，那是因为你还没有真正理解矩阵乘法在数学、物理以及许多其他学科中的用途。

具有讽刺意味的是，维特援引对称的概念来贬低矩阵乘法，因为矩阵理论和一门称为群论的相关学科是数学家用来充实我们在艺术和科学中产生的关于对称性的直觉想法的工具。

那么，像维特这样聪明的人怎么会误入歧途呢？

证明 vs 计算

我猜想维特的部分困惑源于这样一个事实：将数字矩阵相乘得到更大的数字矩阵的过程非常繁琐，而繁琐在心理上往往与厌恶和丑陋感密切相关。但矩阵乘法的繁琐与其对称性（维特错误地否认了这种对称性的存在）息息相关。

当你以直接的方式将两个 n×n 矩阵 A 和 B 相乘时，你必须以相同的不变方式计算 n² 个数，而这 n² 个数中的每一个都是 n项之和，而这 n项中的每一项又可以简单地表示为 A 的一个元素与 B 的一个元素的乘积。

由于这个过程如此重复，人们很容易感到厌倦、注意力不集中，从而导致错误。我们往往将对称和美视为同义词，但有时过度的对称会滋生厌倦；过度的重复也会令人反感。想象一下《巴别图书馆》，以及画面感所唤起的那种存在主义式的恐惧。

维特引用的著名论断出自 G. H. 哈代之口。哈代从事定理证明，他更倾向于概念性证明而非计算性证明。如果你给他看一个定理证明，其中论证的关键在于用五页纸验证某个矩阵乘积的特定值，他会说你根本没理解自己的定理；他会断言你应该寻找更具概念性的论证，然后把你的穷举证明扔进垃圾桶。

但哈代对穷举的厌恶仅限于数学证明领域，这与计算年金最优定价、计算飞机机翼风切变或微调人工智能权重等数学应用相去甚远。此外，哈代对你的证明的反对意见会集中在计算的冗长程度上，而不是计算是否涉及矩阵。即使你给他看一个用了 5页冗长乏味的 19世纪以前的计算方法，而且一次也没有提到矩阵的证明，他仍然会说：“你的证明只是一种临时的数学；它让读者相信你的定理是正确的，却没有真正解释为什么这个定理是正确的。”

如果你用枪指着我，逼我把两个 5×5 的矩阵相乘，我会非常不高兴，不仅仅是因为你威胁我的生命；这项任务本身就令人厌恶。但如果你让我把一百个随机的两位数相加，情况也一样。矩阵乘法或数字加法本身并不丑陋；而是这种重复性的任务与哈代所热爱、我也同样热爱的概念性思维截然相反。

任何数学内容，一旦被剥夺了意义，沦为机械的苦差事，都会变得枯燥乏味。但这并不影响其背后的概念。当我们把数字加法或矩阵乘法外包给计算机时，我们理所当然地把这令人窒息的劳动交给了没有灵魂的电路。如果我们能够窥视那些执行矩阵乘法的电路内部，我们确实会看到一幅噩梦般的、博尔赫斯式的景象：数十亿根钉子一遍又一遍地钉入数十亿块木板。但请不要把这种劳作与数学混为一谈。

欢迎前往Hacker News加入对本文的讨论！ https://news./item?id=46009660

本文与我正在撰写的一本书的第十章（“走出子宫”Out of the Womb）相关，这本书暂定名为《数字究竟是什么？：加法和乘法的更奇特冒险》 What Can Numbers Be?: The Further, Stranger Adventures of Plus and Times 。如果您对此感兴趣，并希望帮助我改进这本书，请访问 http:///readers.pdf 。一如既往，欢迎您在“数学魔法”（Mathematical Enchantments）WordPress 网站上对本文发表评论！