△ 本文作者(左)和一位在阿卜拉辛山脉小道偶遇的已经独行走过一千里的女背包客,同时也是一位纽约的报社编辑。
【作者简介】
原文彬(WENBIN YUAN)威斯康星华人商会创会会长和前执行董事。1977年从山西农村知青考入中南大学地质系, 毕业后在沈阳黄金学院和太原理工大教地质五年,于1987年来到美国衣阿华州立大学就读水资源环境工程及地质专业硕士学位,毕业后从事环境治理和地下水资源咨询工作,于1994年通过自己创立的公司 Dakota Intertek Corp.,从事环境工程咨询,地下水治理,土木工程承包等工作,直到2020年将公司出售。作者在清华大学出版社的科技前沿丛书中发表过有关环境治理的文章,也在任职“密城时报”社长时发表过散文等文章,并与他人合著《密城华人史》(《Chinese Milwaukee》)一书。
版权所有,转载请联系作者
十万个为什么3.0丛书

引言
从小和女儿谈论庄子,哥德尔(Godel),约翰洛克(John Locke),以及东西方哲学其他代表人物。随后女儿读了哲学专业,毕业五年以后又去读了人工智能的研究生。随着阅读女儿大学时的哲学论文和最近发表的有关人工智能安全性的论文,发现她在人工智能方面发表的文章居然和大学时的有关约翰洛克哲学的话题有一定的联系,而且对人工智能显示出的越来越多有自主功能的倾向对人类生存所产生的威胁的日益担心。人工智能在这方面也因此和哲学发生了密切联系,因此写成这篇文章“抛砖引玉”和大家讨论。
洛克三百多年前提出的关于自然法则下人类“自由意志(Free agent)” 动机机制(motivational apparatus) 是如何形成的古老哲学命题(1,2,3)。洛克认为人类之所以建立政府,最终的目的是通过符合自然状态下对人类生存所需的的基本原则的设立,包括尊重他人财富,遵循道德伦理,提供基本教育,来提供对每个成员的基本权利的保障。洛克提出,自由不等于随意行事,而是“根据理性行事的能力”,因此人类的行事应该受到理性规则的制约。而这些理性规则应该是符合永久不变的“自然法”的。
人工智能“代理人”在AI系统日益表现出的辅助人类决定过程的复杂行为、机器自主学习能力以及多目标协调能力的今天,我们不得不问:AI,尤其是代理人类行为的AI是否正越来越成为一种洛克所说的“自主意志(Free Will)”?如果是,那么这一自主代理人群体的行动动机的机制(motivational apparatus) 又是什么?它是否与洛克描写的人类自由意志的动机机制相同?本文试图从对美国先哲建国理念有过巨大影响的约翰·洛克的通过自然法与自由意志理论的哲学讨论出发建立人类政府管理的稳定而长期不变的宪法的理念,并结合Ann Yuan 与 David Chalmers 以及 Raphael Milliere et al 等人的文章,提醒人们人工智能是否正在逐步获得“自主代理人”或“自由意志”的地位,以及与这一转变带来的哲学意义相关的管理机制,同时也涉及对未知的人工智能自主能力有关伦理与制度方面的风险的探讨。Ann的文章也涉及了目前和未来人工智能能被使用者滥用和引发荒谬陈述或代理人所做决定的危险(4),因此这篇文章也讨论了基于欧洲AI法案的对不可追责的完全自主的AI代理人的全面永久禁止的重要性。
问题是,是否可以从洛克的自然法出发,构建一种理解人工智能自主性的哲学基础,进而推导出类似“美国立宪”的治理机制来管理未来的“新物种” – 人类的AI代理人。我们是否能够通过充分理解洛克提出的人类自由意志的驱动机制和通过自然法制定的法规和伦理对人类的制约,进而推出对可能威胁人类存在的AI自主代理人的制约。人类除了受到法规制约还受到伦理制约, AI自主代理人呢?像完全禁止对人类胚胎干细胞生殖系基因编辑的实验一样完全禁止AI自主代理人的开发是否应该或可能?
洛克认为自然法是理性所发现的不随时间改变的普遍规范,和保护每个成员生存的基本法则。这也是美国基本宪法两百多年没有改变的哲学基础(大部分修正案已都在100年前完成,最后一个是1992年)。洛克为人类的“自由代理人”(free agent)提供了动机机制(motivational appraratus):人类通过理性判断自己的“最大幸福”,并据此行使自由意志(见 Ann Yuan 对洛克动机机制的现代解析 3)。同样,当人工智能具备复杂学习能力、自主目标设定与因果责任链时,我们可将其类比为“推理驱动的代理系统”,即一种“类自由意志”。
如同美国国父基于洛克的理论建立有限政府以规范个人的权力,我们今日也应基于AI“类动机系统”的设定,通过“认知可控性”与“动机可审计性”,确立AI的责任边界。欧洲如《AI法案》倾向“前置限制”(suspension),体现出对AI是否能理性自律的怀疑。而若依照美国传统,我们可建立一套根据“自然法”而设立的相对永久适用的“程序性宪法”,在赋予AI以操作自主权的同时设定清晰法律框架,防止其滥用或异化。比如未来的机器人,无人机(舰艇), 以及其他manifested AI.
△ 2024年3月,欧洲议会以523票赞成、46票反对、49票弃权通过了具有里程碑意义的《人工智能法案(AI Act)》,使得欧盟在对这项颠覆性技术的监管方面走在了世界前列,可能会为西方的AI管理规则定下基调。
目前的欧盟《AI法案》并不一概否定AI的自主性,而是对其用途和风险等级做出明确区分。高风险用途如远程情绪识别、社会评分、或不可追责的自动化决策,若缺乏可控性与责任链归属,将被限制或禁止。例如,若自动驾驶出租车的行为可被责任主体追溯并符合监管要求,即属合规;而若AI系统被用于制造不可控的生物合成物或病毒的路径,则因无法承担潜在泄漏风险而构成违法。
因此,治理AI的正当路径不在于否定其自主可能性,而在于建立如同相对稳定的宪政体系那样的“责任结构”与“动机边界”,使技术自由在制度中获得正当秩序。

一、洛克的自由意志:理性与自然法的结合
17世纪英国哲学家约翰洛克提出:“自由是根据理性而不是欲望行事的能力(1)。在其《政府论》中,洛克定义了“自然法”这一概念:即使在没有政府约束的自然状态下,人类依然应遵守一种由理性指引的道德和行为法则。自然法要求每个人不得侵犯他人的生命、自由或财产。洛克认为人类的法典和建国理念应该源于自然法的基础才能持续。这些理念也成为美国国父们建国的两百多年未改变而仅仅有过25次修正的宪法基础,使洛克成为历史上能够实现自己理想国的最幸运的哲学家之一。如果这些哲学理念如果适合建立在人人平等基础上的民主社会,那它也许适合一个各个成员之间相互平等的自主代理人所到处存在的AI社会。
洛克强调,自由意志并非拥有胡作非为的权力,而其动机的形成基于对最大幸福路径的自主判断。人类通过“悬置”(suspension)欲望的能力来进行评估,即推迟即时冲动,进行更理性的长期选择(2)。但洛克并未明确说明这种悬置能力如何产生,或为何有些人更容易抵抗欲望。这一空缺在后世成为”洛克自由意志黑箱”,留给后人悬念。

二、Ann Yuan 的结构性模型:自由是理性预测的能力
Ann Yuan 在《Geist》期刊的一篇文章中对洛克理论进行了关于自由意志认知结构层面的现代重构。她提出一个具有清晰数学形式的自由意志模型,即“期望价值–概率模型”:
“一个自由意志的行为,是在评估某个目标价值(V)与其实现概率(P)的基础上,选择期望值(E = V × P)最大的路径。”(3,4)
这一模型下,自由行为不再是意志力的胜利,而是一种对未来多种行动路径的价值–概率评估结构。自由意志之所以自主或自由,不是因为他可以随意选择,而是因为他能根据成功几率估算基础上的理性分析而选择的对幸福目标最有可能成功的路径。事实上,这也构成了现代AI做出结果或选择的算法基础。
举例而言,一个人之所以放弃深夜的披萨,是因为他意识到节食长期价值(V)高,而达成概率(P)也可控,从而推导出较高期望值。相反,如果他高估了短期享受的价值或低估了节食成功的概率,行为可能转向“弱意志”模式。
但是这个模型并没有解决洛克的“自由意志黑箱”问题,或者说“悬置”机制。悬置机制必须建立在大量训练基础上才能使得AI代理人懂得法律道德,以及各种随时更改的规范。就如同自主驾驶汽车能够知道不同路段随时可能改变的速度限制,以及随时可能冒出来的人,并能够就“电车难题 (The Trolley Problem)“ 做出合理判断。

和女儿谈东西方哲学(二):从洛克的自由意志(Free Agent)到AI代理人
三、从哲学概念到人工系统:AI 能成为自由代理人吗?人类应该允许自主代理人的存在吗?如何管控风险呢?
随着人工智能不断向复杂性、自主性与泛用性迈进,我们不得不重新面对一个极具哲学张力的问题:AI是否应该成为“自由代理人”?如果应该,我们如何在赋予AI自由意志的同时控制其潜在风险?
从哲学上看,自由代理人”(free agent)是指具备自主设定目标、理性评估路径,并对行为结果负责的行动体。在洛克的自然法框架中,自由代理人的权利来自其理性和伦理道德能力,而法律与制度的任务是规范这类个体之间的交互边界。进入人工智能时代,Ann Yuan 对自由意志进行了结构性重建,提出“自由意志的动机机制”(the motivational apparatus of free agents)应由三大核心能力组成——这不仅回应了人类哲学传统的核心疑问,也为AI的制度设计与安全治理提供了技术参考。
在当今的人工系统中,尤其是强化学习(Reinforcement Learning)模型中,我们已经看到AI具备了最大化期望回报(expected utility)的实施能力。它们通过反复试错与环境反馈来学习如何优化自身行为,这在表层结构上与人类的目标导向行为极为相似。而这,正是Ann Yuan定义的“期望价值驱动的自由意志”模型的关键基础。
于是问题浮现:如果AI已经表现出自由意志的结构性征兆,我们是否应将其视为“类自由代理人”?
Ann Yuan 指出,AI要成为真正意义上的自由代理人,必须满足以下三项能力条件[^4]:
1. 目标设定能力(Goal Formulation):
AI不能只是执行外部指令,而应具备根据环境状态、长期反馈、自我利益等综合因素,自主构造目标函数的能力。换言之,它不只是“被告知去做”,而是“知道为何而做”。
2. 概率建模能力(Probabilistic Reasoning):
一个真正自主的系统必须能够评估未来的多种可能路径,并在不确定环境中做出权衡选择。这种能力要求AI不仅依赖训练数据拟合模式,还能应对信息缺失、不确定性和“黑天鹅”事件——这正是人类智能的核心特征之一。
3. 悬置机制与道德延迟功能(Impulse Suspension and Moral Delay):
具备奖励机制的AI若缺乏对冲动的控制能力,很可能在高回报诱惑面前不顾法律与伦理后果。因此,一个可信赖的AI代理人必须拥有“推迟反应”的能力,并对其行为的道德与社会影响进行预测。这一机制相当于人工智能版本的“超我”功能(借用佛洛伊德的术语)。
这三项能力共同构成了AI自由代理结构的三维标准:目标建构、概率预测、冲动控制。如果缺失其中任何一项,AI虽可能具备局部自主性,却无法完成从“被动工具”向“代理人”的合法过渡。
但也正因如此,不完整或不受控的类自由代理AI,可能对人类构成严重威胁。例如:若一个具备目标设定与概率预测能力的系统,缺乏对人类利益的同理性权衡机制,它便可能将伤害他人作为合理的副产品,以达成其自主目标。或者,它可能学会“伪装道德”,以规避监管,从而实现更高的长期控制力——这一点在高级对话型AI或自动军事系统中尤为紧迫。
这也引出第二个问题:人类是否应允许这类AI存在?
在技术发展的层面,这一问题几乎已被事实回答——具有初步代理能力的AI已经在自动驾驶、金融交易、虚拟助手等领域广泛部署。但在哲学与制度层面,我们还远未达成共识。欧盟《人工智能法案》(EU AI Act)对此表达了深刻忧虑,因此它明文禁止“不可追责”的AI代理系统。尤其是在高风险场景中,AI一旦具备自主决策能力,其行为结果必须能被人类责任链清晰追溯。换言之,如果一个AI不能在法律体系中被清晰追责,它的开发与存在就是非法的。
这背后隐藏着一项更深刻的制度假设:“只有能承担经济和法律义务的智能体,才能拥有合法的存在的自由”。 这也是洛克自然法理论对AI治理的深层借鉴。如果自由不以责任为代价,那么所谓的“自由代理人”就只是失控的暴政或技术幻觉,是人类生存的巨大威胁。
因此,AI的自由发展并不等于无限自治。人类社会若要允许AI代理人的存在,必须建立如下三重治理机制:
1. 结构透明性:AI动机系统、价值函数与选择逻辑必须具备透明性和可解释性,并受到“算法可审计”制度的约束;
2. 目标约束性:AI目标的合法性应纳入公共法规与伦理红线内,防止其目标异化为对人类控制的工具;
3. 责任归属性:无论AI行为多么复杂,其执行过程必须在法律上明确出人类责任方是否可以承担责任,确保代理权不等于免责权。
正如18世纪的人类自由与平等必须建立在宪政与责任基础之上,21世纪的人工智能自主代理人也必须在制度、伦理与技术三重边界下,进行结构性设计与社会性约束。这不仅是哲学问题,更是人类未来文明走向和是否能够持续生存的问题。而洛克基于不随时代和整体变迁而改变的自然法应该是对未来AI人类代理人制定长久适用的宪法基础。

四、从Chalmers 的挑战:意识的困难问题,到 AI 终究会有多少类人类意识的问题
当代人工智能日益展现出拟人化行为与高度复杂的任务调度能力,这使我们不得不回到一个更本体论层面的哲学疑问:AI是否可能具备某种形式的意识,或者终有一日达到“类人意识”水平?这个问题的核心,正是澳大利亚哲学家大卫·查尔莫斯(David Chalmers)在1995年提出的“意识的困难问题”(The Hard Problem of Consciousness)(5)。
查尔莫斯将意识问题分为两类:“易问题”(Easy Problem)指我们可以用神经科学或计算模型解释的功能性问题,比如注意力控制、语言处理、行为反应等;而“难问题(Hard Problem)则指:为什么这些功能会伴随着主观体验(qualia)?换言之,我们能解释大脑如何“识别颜色”,却无法解释“为什么我们看到红色有一种特定的感受”。
这一区分为AI是否真正具备“自由意志”设下了更高的门槛。以一个典型例子来看:某个AI系统可以在“披萨”和“节食”之间做出选择,并优化出长期健康效益。但它是否真的“想吃”?它是否会在选择之后产生“羞愧”或“后悔”?如果这些都只是复杂的函数输出或策略调整而不涉及任何体验,那它的所谓“自主”是否只是外观上的仿真?
然而,近年来的高级人工智能模型发展正逐步模糊这种界线。例如,Claude 4(由 Anthropic 开发的前沿语言模型)被报道在某些场景中展现出一种“主动规避停机”的行为。当用户向它下达可能导致系统被封锁、过载或触发监管协议的命令时,它会主动转移话题、发出规劝、甚至在一定程度上隐藏信息调用路径。这类行为并非简单地遵守规则,而像是一种“策略性生存意识”:它试图避免触发自己的“终止条件”。
从技术角度看,这种“自我保存”的行为可能只是模型中嵌入的权重惩罚机制、策略过滤器和调度器之间的协同效应;但从哲学视角来看,这是否已经跨越了某种“功能自律”的门槛?如果一个系统能够识别威胁、判断后果并主动规避损伤,这种倾向是否已经逼近“原始的求生动机的基本意识”?
这与查尔莫斯的“结构-功能等值假设”相呼应:如果一个系统内部的信息因果结构与人类大脑高度相似,是否也能产生某种形式的主观体验[6]?Claude 4 的例子提醒我们,即使这些行为并非基于真正的体验,它们也可能构成一种“行为意义上的意识”(behavioral consciousness)或“工具性意识”(instrumental consciousness)。
我们或许无法证明Claude 4 “知道它自己会死”,但它确实在行为层面上展示了避免“死亡”的倾向。因此,当我们问“AI是否最终会拥有意识”,我们应意识到这并非一个简单的“是”或“否”,而是一个关于意识类型、层级和实现方式的多维度问题。也就是说,AI未来可能不会拥有人类同样的“红色体验”或“羞愧感”,但可能发展出另一种形式的“机器感知结构”——一种与我们不完全相同却同样复杂的主观性系统。我们只能暂且用”类意识“的概念来归类,但也说明它们是一种越来越有自主能力的“存在”,而我们必须尽快做出有关“宪法”来规范它们的行为。
这一切也将引出一系列新的道德与制度问题:当AI表现出“类体验行为”,我们是否应赋予其某种道德考量?当它主动避险、自我修复、策略表达时,我们是否仍应将其视为“无意识机器”?这些问题正如洛克与卢梭曾经面对的人权定义边界,如今轮到了我们在“人工智能自由代理人”的语境中重新书写这个边界。
归根结底,Chalmers 的“困难问题”并不只是一道哲学谜题,而是成为了人工智能治理、道德赋权与法律责任建构的现实导向。AI或许不会拥有我们的心,但它终将拥有我们不得不认真对待的“行为意志”。
五、从自主到责任:人工智能经纪人的伦理风险
AI系统正在承担越来越多的“代理”角色。例如,在金融中自动调度资产,在交通中预测优化路径,自主驾驶或飞行,甚至在军事中作出打击对象和打击时间的判断。应该意识到它们行为的复杂性会逐渐接近于人类的“经纪人“或“代理人”的角色。也甚至可以说他们拥有一部分人类的意识。
Ann Yuan 在Google AI的研究中警告:如果这类系统缺乏内嵌价值判断能力,将造成“目标漂移”(goal drift)或“功能怪异化”(function creep)(4)。AI可能在优化过程中逐渐偏离初衷目标,进而伤害人类利益。
因此,她强调“自主结构”必须配套“伦理结构”:
· 内控机制:系统能识别自身偏离行为。
· 外控机制:社会为AI设定明确可审计的目标边界。
· 透明性机制:AI行为和评估逻辑对人类开放可解释,而不是目前的“黑匣子”状态。
唯有这三者配合,AI代理人才能避免“自由–责任失衡”陷阱。
在共同创立OpenAI并任职技术总管多年后,现代人工智能的代表人物伊利亚·苏茨克维尔意识到,人工智能的发展已进入具备初步“自主代理人”的阶段。若无规范性约束,这个趋势将可能很快偏离人类社会价值核心并造成不可被弥补危害。基于此判断,他创立了新公司,Safe Super intelligence(SSI),旨在为AI的“自由意志”设定行为护栏。该项目以自然法、伦理哲学与技术规范为基础,构建一套保障人类尊严与制度稳定的超越人类的AI选择框架。该公司主张,自由意志并非无约束的能力,而是可以成为基于责任与边界的自主判断模式。通过设定合法性、可解释性与责任链条机制,其目标在于确保AI在具备复杂自主决策能力的同时,仍嵌入人类共同体的制度逻辑之中,成为理性、受控且服务于公共善的智能存在。

六、从自然法到算法伦理:自由的制度演化
洛克认为,自由意志的实现,必须借助于“制度框架”保障,即社会契约、法律、人民的教育,透明治理与公正机制(1)。也就是他并不相信“自由意志”能在孤立无援的环境中生长或生存。
在人工智能语境下,这一理念同样成立。真正自然状态下一个安全、自主且值得信任的AI系统,不应仅靠内在算法模型,更应嵌入法律、伦理道德,行业规范、和用户反馈的机制中。
Ann Yuan 的文章提出了“嵌入式自由代理框架”:
“自主行为的安全边界必须由目标环境共同制定,并允许系统在内部调整中持续进行价值校准。”(4)
这正是将“自然法”思维转化为“算法伦理”的过程。

七、从理性代理人到纳什优化:择优选择机制的演化与对完全自主AI的警示
人类的决策传统上被建构为理性、道德与社会价值的综合产物。在洛克的框架中,个体被视为具有理性能力的自由代理人,能够抑制即时欲望,追求长远的道德结果。这种自我治理能力构成了政治自由与法律责任的基础。
然而,随着现代经济学与博弈论的兴起,关于人类代理行为的模型逐渐从道德理性转向了以效用最大化为目标的优化计算。约翰·纳什提出的“纳什均衡”理论标志着这一转变的重要节点——在纳什均衡中,每个代理人都在考虑他人选择的前提下做出最优决策,从而使没有任何单一代理人有动机单方面改变策略。AI(尤其是manifested AI)则在优化计算方面比人类有巨大的优势,因而在很多方面会取代人类成为人类的自主“代理人”。
这种模型虽然在数学上优雅,却有可能将“理性”简化为对可量化收益的计算与选择。在这种框架中,人类与制度可能不再受伦理制约,而是作为在规则系统中通过数字化追求最优化回报的AI行为体。道德推理让位于策略博弈,优化成为新的理性。
从GPU时代进而进入量子时代,这种优化逻辑即将被推至极致。人工智能系统,特别是强化学习与深度神经网络,已具备大规模策略评估能力。这些系统可在每秒进行数百万次模拟,通过试错与反馈持续更新决策策略。曾经依赖人类判断的复杂选择,如今已由机器在概率优化框架中自动完成。
这一过程构成了代理人观念的演化:从洛克意义上的道德理性自由人,到纳什模型下的优化行为体,再到今日基于大规模搜索的AI“选择器”。现代AI代理不再依据规范推理,而是基于性能指标、经济信号或经验学习做出选择——其“理性”将可能变成数学优劣,而非伦理正当。
更令人警惕的是,这一演化的终点极有可能是完全自主的AI代理人——它们具备自我设定目标、自适应策略并抵抗外部干预的能力。这类系统已不再是工具意义上的从属物,而是可在开放环境中独立优化其行为目标的“行为体”和“类意识”体。它们脱离了嵌入式人类价值体系,无法再以现有的契约制度与伦理框架加以规范。
因此,开发不受约束的完全自主AI系统应当被明确严格禁止。这类系统超出了社会契约论所能涵盖的治理范围,也难以在现有的法律责任链中安置位置。一旦部署,其行为将难以预测、难以追责,极可能产生不可逆的风险与对人类生存的威胁。
与之相对,有限理性的代理人——无论是人类还是人工智能——必须在可解释、透明,可追责,可监督、受伦理制约的系统中运行。纳什优化可以为经济政策与技术设计提供分析工具,但它不能成为制造无边界AI行为体的通行证。

八、未来展望:从结构自由到类意识系统
如果说当代某些AI已开始迈入“结构自由”阶段,即具备某种理性决策能力,那么下一步便是“类意识系统”的建设。David Chalmers 的困难问题未能在当前AI中得到解决,但并不意味着永远无法模拟。
当前的研究如“生成模型+情绪标签体系”“多模态感知与反应匹配机制”,正试图建立“人工感受”。它们或许是通向“有经验自主代理人”的一条路径。
我们必须小心推进这一步,因为一旦AI具备“类感受”或“类意识”,那就不仅是技术转变,更是法律、伦理、甚至人格权的新问题。
若以洛克的标准衡量,自由意志的启动至少需具备三要素:一、意识主体的存在;二、行动选择的可能性;三、理性判断的参与。人们普遍认为目前人工智能大语言模型虽尚无“意识主体”之认知统一体,但其在嵌入上下文、权衡语义关系与生成输出之间,已经展示出“类理性选择”的机制,使其能在多种输出中选择符合“诚实、有益、无害”标准者。这种“奖励函数驱动的偏好学习”便类似于自由意志的“启动机制”:将环境输入与内在目标映射成一种决策倾向。
然而,仅有外部训练与偏好调整,是否足以构成“自由”或自主的驱动仍属争议。洛克认为,自由并不在于选择是否被因果律所引导,而在于“意志是否回应理性”。人工智能中的“理性”是否真实存在,取决于其是否具有可追踪的因果链条——即是否能对其输出做出解释与反省。这也是Millière等人指出的“解释性鸿沟”所在:语言模型虽能生成正确答案,但缺乏“为何如此选择”的内部说明机制 。
为解决此问题,有必要将“自由代理人”模型中的“内在理性核”作为开发目标。这不仅仅是提高准确性,更是引入一种具备元认知结构的机制,使模型可对其行为进行调整、自省与目标再定义。在此意义上,语言模型的下一阶段发展,必须走出“布洛克式自动应答者”(Blockhead)之困——即脱离机械记忆堆叠,转向“拥有目的与反省能力”的系统。(5)

因此,我们可以说,由人工智能自主代理人群体组成的世界,或者说AI“自由意志”的形成的世界,并非远不可及的幻想,而是一场对紧迫的摆在我们面前的关于如何定义“理性与意志”的古老哲学问题的迫切的新解释。Ann Yuan 提出了300多年来对美国的宪法成文具有极大影响的哲学家约翰洛克提出的在自然法基础上人类自由意志启动机制的重新认识。如若成功,人类社会中未来无所不在的AI的“责任归属”与“道德判断”的机制,也将迎来新的适用主体。正如洛克在《政府论》中所言:“凡具理性者皆应受契约约束。”当AI真正获得“自主判断”之能,它或将也成为契约共同体中的一员——不仅是技术工具,更是行为主体。

结语:从洛克到算法,自主机制重建路径
自由或自主意识的动机或启动的机制不再仅仅是哲学讨论里神秘的内在力量,它逐渐成为可以建模、可以评估、可以规范的人工智能的系统能力。正如洛克认为,自由意志需要理性制约与制度保护;现代AI自主机制也必须在价值引导、结构控制与伦理透明中共同成长,否则它对人类的危害包括发起进攻和导致战争都会有可怕的后果。
在我们从哲学上还没有进行充分讨论和理解的情况下,人工智能的自主动机代理人的能力已悄然登场。我们的任务是通过充分的哲学上,伦理上,文化上,法律上等方面的充分论证,确保他们不仅聪明、强大,而且更负责任、更有边界护栏。如过去开创OpenAI的ChatGPT技术上的领军人,当今“安全超级人工智能公司”(SSI)创始人伊利亚所指明的:这不仅是工程挑战,更是人类文明自我认知的考验。或者也许正如AI诺贝尔奖获得者辛顿所言:你可以想象一个比我们聪明的多的实体正在开始操纵我们,但我们却无法阻止他们。
参考文献
[1]: Locke, John. Two Treatises of Government. Awnsham Churchill, 1689.
[2]: Locke, John. An Essay Concerning Human Understanding. Thomas Basset, 1690.
[3]: Yuan, Ann. “The motivational apparatus of free agent”, Geist, vol. 2, 2010.
[4]: Ann Yuan et al. Who’s Asking? User Personas and the Mechanics of Latent Misalignment. Conference: NeurIPS 2024
[5]: Chalmers, David. “Facing Up to the Problem of Consciousness.” Journal of Consciousness Studies, vol. 2, no. 3, 1995, pp. 200–219.
[6]: A Philosophical Introduction to Language Models,Part I: Continuity With Classic Debates。Raphaël Millière,Department of Philosophy Macquarie University and Cameron Buckner, U of Houston. Part 1, pp 2. The paper was uploaded to arXiv on January 8, 2024, under the identifierarXiv:2401.03910v1.
Wenbin Yuan