1960年,“控制论之父”诺伯特·维纳(Norbert Wiener)在文章《自动化的道德和技术后果》(Some Moral and Technical Consequences of Automation)中提到两则寓言故事:一则来源于德国诗人歌德(Goethe)的一首叙事诗《魔法师学徒》(Der Zauberlehrling);另一则来自于英国作家雅各布斯(W. W. Jacobs)的《猴爪》(The Monkey’Paw)。作者将这两个故事同“人类和机器的关系”联系在一起,指出“随着机器学习进一步发展,它们可能会以超出程序员预期的速度制定出未曾预见的策略”。[1]并将人工智能对齐问题定义为:“假如我们期望借助机器达成某个目标,而它的运行过程是我们无法有效干涉的,那么我们最好确认,这个输入到机器里的目标确实是我们希望达成的那个目标。”另外,对齐研究中心(alignment research center,ARC)负责人Paul Christiano在2018年发布的一篇文章中指出“对齐”更精确来讲是“意图对齐”(intent alignment),即当我们说“人工智能A与操作员H对齐”时,是指A正在尝试做H想要它做的事情,而不是具体弄清楚哪件事是正确的。“对齐”(aligned)并不意味着“完美”(perfect),它们(即人工智能)依然可能会误解指令、无法认识到某种行为会产生特别严重的副作用、可能会犯各种错误等。“对齐”描述的是动机,而并非其知识或能力。提高AI的知识或能力会让他们成为更好的助手,却不一定是“对齐的”助手,反之,若AI的能力很弱,可能都不足以来讨论对齐问题。[2]斯图尔特·罗素(Stuart Russell)曾在一场TED演讲提到一个很有趣的论点,“You can’t fetch the coffee if you’re dead”。如果我想要让一个机器人帮我拿一杯咖啡,我所期待的是机器人能够又快又好地将咖啡递到我的手中,但如果给机器人设定足够广的动作空间(action space),机器人除了思考怎么把咖啡送达之外,还可能考虑到要阻止他人对于送达咖啡的妨碍行为。而一旦机器人萌生了这样的想法,危险就浮出了水面。在弱人工智能时代,人们可能难以设想一个具有通用任务执行能力的AI存在如此具体紧迫的危险,但在大语言模型(LLM)爆发式发展的今天,我们需要更好地理解并能够具象化感知这一危险发生的可能性。因此,本文将从这一带有科幻色彩的故事走入,将AI价值对齐拆解为几项比较具体的研究方向,从学术的角度进行详细阐释。
AI价值对齐的风险模型有哪些?
“风险模型”是指如果AI真的能够带来风险,那么这一风险的实现方式究竟是什么?总体而言,AI价值对齐的风险模型可以划分为三大类。第一类是在理论和实践上已经存在比较广泛研究的问题(theoretically established and empirically observed);第二类是更多能在实验中观测到,但目前在理论上还没有更深入的研究,但值得继续深入开拓的问题(empirically observed);第三类则属于猜想性问题(hypothetical),即当下我们并未在实验中观测到,但可以通过构造实验去观测人工智能是否具备某种能力。下述三种风险模型即分属此三类问题。
(一)基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)从人类反馈中进行强化学习是一种训练人工智能系统与人类目标相一致的技术,RLHF已成为优化大型语言模型的重要方案。尽管该方法备受关注,但对其缺点的系统化整理相对较少。来自苏黎世联邦理工学院计算机系人工智能方向的陈欣博士Cynthia今年发表的论文即聚焦于RLHF的一些开放问题及其根本性的局限,通过将其学习过程解构为三大类,即从人类反馈(human feedback)训练奖励模型(reward model)、奖励模型训练策略模型(policy)、及其间形成的循环(loop)出发,进一步将具体问题拆解为14个可解决的问题和9个更根本性的问题。[12]因此,第一类解决思路是当未来出现了非常强大的优化算法或更强大的大语言模型时,我们应如何定义一个正确的目标让AI做正确的事情?这一思路存在如下三方面问题。一是人类反馈的问题(Challenges with Human Feedback)。可靠且高质量的人类反馈有利于后续的奖励建模和策略优化。一方面,选择有代表性的人并让他们提供高质量的反馈是很困难的;有些评估者可能怀有有害的偏见(harmful bias)和观点;个别人类评估员可能会篡改数据;由于时间、注意力或关注度有限,人类会犯一些简单的错误;部分可观察性(partial observability)限制了人类评估员;以及数据收集本身也可能带来偏见。上述问题相对可解决,另外还存在更加根本性的问题,即人类认知的局限性使得无法很好地评估模型在困难任务上的表现;而且人类可能会被误导,因此他们的评估一定程度上可能会被操控。另一方面,算法本身也可能存在问题,比如在收集人类反馈时,需要对成本和质量进行权衡;RLHF不可避免地要在反馈的丰富性和效率之间做出权衡等。二是奖励模型的问题(Challenges with Reward Model)。奖励建模的目标是将人类反馈映射到合适的奖励信号上。但是奖励模型即使从正确标注的训练数据出发,也可能出现归纳错误;而且评估奖励模型的过程既困难又昂贵。有一个比较经典的例子来源于OpenAI早期的一项研究,即一个被训练为抓取小球的人工智能手臂,在成功抓起时可以获得奖励。然而它却学会了使用视线错觉作弊,即当机械手臂移动到小球与摄像机之间,就展示出小球被成功抓起的错觉。从人类的角度来说,它一方面利用了人类视觉上的漏洞,另一方面奖励模型也确实学习到了不正确的任务,这是一个比较难解决的问题。不过更根本的问题是,奖励函数(reward function)难以代表人类个体的价值观;单一的奖励函数又无法代表多样化的人类社会;对不完善的奖励代理进行优化还可能会导致奖励作弊(reward hacking)。因此如何让奖励函数与广泛的人类社会进行更好的互动值得进一步研究。图8
三是策略模型的问题(Challenges with the Policy)。一方面,对策略模型(policy)而言,高效地优化强化学习是一件困难的事情;输入对抗样本情况下,策略模型可能会被反向利用;预训练模型会给策略优化带来偏差;强化模型可能会出现模式坍缩(mode collapse)。这里更根本的问题是即使在训练过程中看到的奖励完全正确,策略在部署过程中也可能表现不佳;而最佳强化学习代理则倾向于寻求权力(power seeking)。另一方面,当我们考虑到奖励函数的学习后,在联合训练(joint training)的同时优化一个策略模型可能会带来一系列问题。例如这一过程可能会导致分布转移;很难在效率和避免策略过度拟合之间取得平衡。这里更根本的问题是优化不完美的奖励代理会导致奖励作弊(reward hacking)。
当然,人们对于未对齐的AI(包括AGI)可能带来人类存亡风险(Existential Risk,X-Risk)的担忧并非完全杞人忧天。越强大的AI系统越可能进化出自主性,越难以对其进行监督和控制。没有人敢断言AI的权力寻求(power-seeking)倾向不会给人类带来灭顶之灾。也正是基于上述担忧,未来生命研究所(future of life)此前向全社会发布了《暂停大型人工智能研究的公开信》(Pause Giant AI Experiments:An Open Letter)。对此,亦有很多科学家提出反对意见。比如波特兰州立大学计算机科学教授Melanie Mitchell和Facebook人工智能实验室负责人Yann LeCun等人认为AI风险问题不应该上升到这一高度讨论,我们更应该将有限的资源集中在现有的威胁上,聚焦AI当前所产生的实际问题,解决具体的困难。随着争端不断加剧,有人表示这是科技公司的炒作,其旨在从冲突中获益;有人指出当前关于AI风险的讨论都是没有科学依据的猜测;有人认为灭绝言论分散了人们对真正问题的注意力,阻碍了对AI的有效监管;人工智能公司Conjecture首席执行官Connor Leahy在Twitter称其对生存风险的担忧持保留态度,相较靠嘴巴争论,行动更重要。今年6月份,芒克辩论会(Munk Debates)即邀请了上述部分争议方就AI研究和发展是否构成人类生存威胁问题进行了辩论,辩论前有67%的观众认为存在威胁,而33%的观众认为不存在,辩论后有63%的观众认为存在威胁,而37%的观众认为不存在。因此,尽管反方的支持率有所提升,但大部分观众听完辩论后仍然认为AI研究和发展会构成X-Risk威胁。图16产生上述分歧的主要原因可以归结于以下三种情况:首先是大家对于AI可能带来的最坏的情况上观点不一致;其次是大家对这一问题在时间维度上的看法不一致,例如有的学者是从三五年之内看待AI对齐问题,而有的学者是从几十年的时间尺度进行衡量;最后是大家对于风险承受能力的衡量不一致,比如对于人类社会可以作出多大程度的牺牲来承担AI发展的风险这一比例在接受程度上存在差异。不过需要注意的是,人们对于AI风险的所有探讨和辩论并非旨在宣扬AI“宿命论”,而是强调在致力于发展AI的同时,更要重视AI的安全。
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。详情请见:人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动