但凡用过电脑的人,或多或少都遇到过“勾选所有包含交通灯的图片”或“输入下方显示的字母”的小任务来证明自己是人类。这类被称为验证码的登录关卡虽然常常让人挠头(那个红色灯角的像素到底算不算?),却也反映出区分人机的黄金标准之一就是视觉识别。不过,如今的计算机正在迎头赶上。 所以那个黄色的角落到底算不算啊/(ㄒoㄒ)/ 近年来,赋予计算机“视觉”的研究取得了突破性进展。十五年前,计算机识别图像内容的准确率仅约60%,如今90%的准确率已属常态。但许多识图系统仍会栽在最基础的视觉测试上——这正是验证码至今仍有用武之地的原因。新的方法致力于让计算机更接近人类视觉系统——将图像视为由真实物体构成,而非仅仅是像素的集合。这类研究已取得初步成果,例如帮助开发能够“看见”并抓取物体的机器人。 更好的神经网络 计算机视觉模型的核心是一种名为视觉神经网络的技术。这种网络由被称为人工神经元的互联单元构成。这些人工神经元就像人类大脑一样,当整个系统学习时,这些神经元会相互建立连接。通常,视觉神经网络会通过大量带有标注的图像进行训练,最终学会正确识别从未见过的图像内容。这一技术后来在2012年迎来重大突破:当时,一个名为AlexNet的模型采用强化版卷积神经网络,在自我学习图像训练集后,首次实现了对未知图像的准确标注。它以压倒性优势在被视为评估计算机视觉能力的黄金标准的ImageNet大规模视觉识别挑战赛中赢得冠军。AlexNet由两位计算机科学家开发,他们的导师正是2024年诺贝尔物理学奖得主、“人工智能教父”杰弗里·辛顿(Geoffrey Hinton)。尽管性能大幅提升,视觉神经网络仍会犯匪夷所思的错误。2017年,麻省理工学院学生AI研究组的经典实验就曾让神经网络把猫猫识别成牛油果酱——只需在原始图像中添加肉眼不可见的像素“噪点”,就能彻底扰乱模型的判断。 反正我是看不出来这几张图片有什么差异,但当年的谷歌的InceptionV3图像分类器确实把猫猫认成了牛油果酱。 | 图源:A. ILYAS ET AL / PROCEEDINGS OF THE 35TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING 2018 “视觉模型居然能被这么简单的方式误导,这让我非常震惊。”即将就职匹兹堡卡内基梅隆大学的计算机科学家安德鲁·伊利亚斯(Andrew Ilyas)回忆道,他正是当年那个学生团队的成员。给图像中的每个像素点来个“左右横跳”,就能让AI视觉系统晕头转向。耶路撒冷希伯来大学的计算机科学家亚伊尔·韦斯(Yair Weiss)和阿哈龙·阿祖莱(Aharon Azulay)在2019年发现,当他们对水獭、飞机和双筒望远镜的图片进行这种微调后,尽管人眼看起来毫无差别,AI模型却彻底“脸盲”了。这种对细微变化的敏感性,源于视觉神经网络“碎片化”的学习方式。它们并非真正理解“猫”的本质特征,而是通过记忆一系列“猫”相关的碎片特征来识别。正如伊利亚斯团队那个著名的“牛油果酱陷阱”实验所揭示的——这些特征与真正的“猫”的概念可能压根就没有联系。“计算机只会偷懒走捷径,这种学习方式很容易被钻空子。”伊利亚斯一针见血地指出。 另一个使用噪点迷惑计算机的例子,下方的四张图在人眼看来没什么差异,但计算机的识别结果却天差地别。| 图源:A. ILYAS ET AL / PROCEEDINGS OF THE 35TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING 2018 如今,卷积神经网络正逐渐被视觉自注意力模型(ViTs)取代。谷歌机器学习专家阿列克谢·多索维茨基(Alexey Dosovitskiy)解释道:“ViTs将图像分割成名为’像素块’的单元,根据色彩、形状等特征进行智能聚类,最终识别出肢体或家具等实体特征。”通过处理海量图像数据,ViTs能更高效地整合图像不同区域的信息,因而表现更为出色。 使用和大语言模型同款Transformer架构的ViTs,可以更好地识别图像的整体信息 | 图源:A. Dosovitskiy ET AL / AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCAL 模拟人脑的视觉机制一些研究者正通过融合多种视觉神经网络要素,使计算机具备更接近人类的思维方式。以物体为核心的神经网络正是为此而生。这类系统将图像视为物体的有机组合,而非简单归类“黄色”等相似属性,其能够区分物体与背景的独特能力让这类模型在视觉处理领域所向披靡。在近期实验中,研究者通过形状匹配测试对比了不同模型表现。所有模型都只学习了规则的多边形的判断,并在规则多边形识别测试中表现相当。但当面对不规则彩色条纹图形时,以物体为核心的模型取得了更好的效果,表明它们的泛化能力显著突出。据英国布里斯托大学机器学习心理学家杰弗里·鲍尔斯(Jeffrey Bowers)与智利塔拉帕卡大学心理学家吉列尔莫·普埃布拉(Guillermo Puebla)今年初发表的研究数据:顶尖的以物体为核心的模型对非常规形状的匹配准确率达86.4%,而传统视觉模型仅为65.1%。这项技术的应用疆域已突破二维图像。新一代系统能解析视频内容并做出逻辑判断,准确回答诸如“此人羽毛球水平如何”等需要综合理解的提问。以物体为核心的算法也已被应用于机器人领域。部分搭载该技术的机器人能更精准地抓取并三维旋转物体,完成开启抽屉、转动水龙头等任务。有公司甚至正在研发采用此类视觉识别策略的飞行机器人,用于苹果、桃子和李子的自动化采收。这些机器人凭借精确的物体检测能力,可判断果实成熟度,并灵巧穿行于树丛间完成采摘,丝毫不会损伤娇嫩的果皮。科学家预测视觉神经网络将取得更大突破,但要媲美人脑视觉能力仍前路漫漫。“人类视觉系统确实存在某些奇特机制,”鲍尔斯指出,“但绝不会把猫猫错认成牛油果酱。”