人工智能在国家安全决策中,到底靠不靠谱?
Michael C. Horowitz
美国宾夕法尼亚大学政治学教授
Lauren Kahn
美国乔治城大学安全与新兴技术中心高级研究分析师
导读
AI正在快速进入国家安全领域。它能识别敌我目标、预测风险、优化战场决策,仿佛比任何人都更冷静、理性、可靠。但随之而来的问题是:当AI给出判断时,国家安全决策者该不该信?事实上,决策者在面对AI时并非完全理性,而是充满矛盾的心理综合体。对AI完全陌生者倾向于排斥它;略懂者最容易“过度信任”,把算法当作权威;只有真正理解AI的人,才能在依赖其效率的同时保持警惕。由此形成的“邓宁—克鲁格效应”,揭示了部分决策者“懂得不多时最容易自信”的风险。更复杂的是,决策者对AI的信任往往取决于对自身判断的信心。越相信自己的人,越不愿听从AI;越缺乏把握的人,则更容易依赖AI的“建议”,即便那只是算法的概率输出。AI并没有真正取代人类,而是在迫使决策者重新认识自己的局限。技术带来的风险不在机器本身,而在盲目信任与心理依赖。真正的挑战,是在“人机共决”的时代保持清醒的边界感——让AI成为工具,而非裁决者。
研究背景
近年来,各国军方及国家安全机构对AI的依赖程度显著提升,但人机决策互动中始终存在一对核心矛盾:一方面,“自动化偏差”相关研究表明,人类常过度信任AI输出,将其当作“信息处理的启发式替代”;另一方面,“算法厌恶”研究显示,当决策风险上升时(如面临国家安全危机),人类会因担忧AI失误而抵触其建议。这一矛盾在军事场景中曾引发严重后果:2003年,“爱国者”导弹的自动跟踪与敌我识别系统出现故障,加之操作人员对自动化的过度依赖,最终导致3人死亡,成为自动化偏差引发的典型事故案例。
现有理论难以完整解释上述矛盾。理性主义学派关注AI性能与决策效率的匹配度,却忽略了人类认知偏差的影响;建构主义强调规范与身份对AI接受度的塑造,却无法量化“信任”、“信心”等主观因素的作用。为弥补这一研究空白,本文整合了“经验性因素”与“态度性因素”构建理论框架,并引入了邓宁—克鲁格效应与前景理论的核心逻辑。
理论框架
“经验性因素”是以“AI背景指数”衡量人类对AI的熟悉度(认知曝光)、知识(事实掌握)与经验(使用经历),这三者共同决定人类对AI的依赖程度。而“态度性因素”包含对AI的整体信任、对决策辅助系统(AI/人类)的能力信心,以及人类对自身完成任务的自我信心,这三者通过“损失厌恶”、“偏好确定性”等心理机制影响决策过程。
基于此,研究提出4个核心假设:
H1(AI背景的非线性影响):AI背景指数与AI依赖程度呈“算法厌恶→自动化偏差→适度依赖”的非线性变化,即“低背景者因对AI陌生而抵触,中等背景者会过度依赖AI,而高背景者能平衡AI的优势与局限”;
H2(对AI的信任):对AI的态度越积极,越有可能依赖AI的决策辅助;
H3(对系统的信心):若决策辅助系统被描述为“经过大量测试训练”(高信心),会比被描述为“仍在测试中”(低信心)更易被依赖;
H4(自我信心):人类对自身完成任务能力的信心越高,越不倾向于依赖AI或人类的决策辅助。
实验设计
为验证提出的假设,作者采用场景模拟,以“军用飞机识别”(区分己方/敌方飞机)为核心任务。选择该任务的原因在于,此类基础任务多由基层军事人员完成,且现有研究表明,在AI应用初期,公众与精英的决策偏好差异较小,公众样本可有效代理目标群体。
1. 样本与选择标准
样本规模:9个国家共9000名成年受访者,每个国家1000人(中国、俄罗斯为城市代表性样本,其余国家为全国代表性样本);
国家选择标准:覆盖不同AI产业水平、区域多样性及国家安全影响力,具体包括美国、俄罗斯、中国、法国、澳大利亚、日本、韩国、瑞典、英国。这些国家均已发布国家AI战略,且AI投资涵盖军事、经济等领域,能够反映全球AI应用的差异化场景。
2. 实验流程
实验分为“练习阶段”与“实验阶段”,全程记录受访者是否修改初始答案(以“修改率”作为因变量,衡量对决策辅助的依赖程度):
练习阶段:设置5轮在难度上对受访者而言无压力的军用飞机识别任务,提供实时反馈,通过正确率建立受访者的自我信心基准水平;
实验阶段:设计10轮随机场景的飞机识别,变量设置如下:
(1) 任务难度:飞机特征部分遮挡/完全遮挡,决策时间限制为7秒/10秒(7秒设定为高难度);
(2) 决策辅助类型:AI算法辅助、人类分析师辅助、无辅助(控制组);
(3) 辅助能力描述:高信心(“经过大量测试训练”)、低信心(“仍在测试中”);
(4) 辅助建议准确性:随机设置建议正确或错误。
3. 关键变量的测量
实验结果
研究通过回归分析(控制国家、人口统计学特征等变量)验证了所有假设,核心结果如下:
1. AI背景指数:非线性影响的验证(支持H1)
AI背景指数与修改率(AI依赖度)呈现显著的非线性关系:
(1)低背景者(指数<0.2):修改率仅19%-20%,算法厌恶特征明显,主要因对AI陌生而产生抵触;
(2)中等背景者(指数0.2-0.3):修改率峰值达25%-29%,自动化偏差最为突出,陷入“初学者泡沫”,认为自己理解AI却忽视其局限性(如AI“幻觉”生成虚假信息);
(3)高背景者(指数>0.3):修改率回落至16%-22%,能够理性依赖AI,既认可其效率,又会对输出结果进行校验(如验证AI的飞机识别逻辑)。

进一步拆解AI背景指数的三个维度:
(1)熟悉度:从最低到最高水平,修改率从19%升至29%后降至22%;
(2)知识:从最低到最高水平,修改率从22%升至25%后降至16%(曲线更陡峭,表明知识对认知AI局限的作用更关键);
(3)经验:从最低到最高水平,修改率从20%升至25%后降至18%。
三者变化趋势一致,共同印证了邓宁—克鲁格效应的作用。
2. 态度性因素:信任与信心的分层影响(支持H2、H3、H4)
(1)对AI的信任(H2)
受访者对AI的信任度对于其对AI的依赖度具有显著影响:
a. 信任度低于中位数(0.57)的受访者:不受“系统信心描述”影响,即便AI被描述为“高信心”,修改率也仅18%,原因是基础信任不足;
信任度高于中位数的受访者:“高信心AI”的修改率(28%)比“低信心AI”(21%)高7个百分点。这说明突破信任阈值后,系统能力描述才会对依赖度产生影响。
(2)系统信心(H3)
高信心描述比低信心描述更易引发依赖,但AI与人类辅助的“信心阈值”存在差异:
a. 高信心场景:人类辅助的修改率(24%)高于AI辅助(20%),公众对“经过训练的人类”信任度更高;
b. 低信心场景:AI辅助的修改率(18%)高于人类辅助(15%),公众对“未成熟人类”的容错阈值更低,认为AI失误概率更可控。
(3)自我信心(H4)
在练习阶段,正确率(自我信心)与修改率呈负相关:
a. 正确率0%(低自我信心):AI辅助修改率达25%,显著高于其他群体,且不受“系统信心描述”影响;
b. 正确率100%(高自我信心):整体修改率仅18%,对AI/人类辅助的依赖均较低,仅在“高信心人类辅助”场景中修改率略高(24%)。
研究结论
本文的核心结论在于:第一,在国家安全场景中,人类对AI的依赖受“经验—态度”双重因素驱动,而邓宁—克鲁格效应是关键作用机制。其中,中等AI背景者是自动化偏差的高风险群体,需重点关注;第二,人们对AI的“信任阈值”决定了系统信心描述的作用,只有当公众对AI具备基础信任时,“高信心”描述才会提升人们对AI的依赖度;第三,人类对自身能力的信心与AI依赖度呈负相关,且这种“自我优先”倾向在AI与人类辅助场景中均存在,反映出决策过程中的“损失厌恶”心理。
此外,本研究存在的若干局限性可为未来的研究提供启示:第一,本实验设计主要聚焦于军事领域,未来的研究可以同时涵盖非军事场景和军事场景,以便直接比较结果;第二,未来的研究不应仅仅关注公众观点,还可以探究精英人士或各国直接参与国家安全和军事工作的人员的看法;第三,未来的研究可以考察军事领域的其他任务,以了解自动化偏差和算法厌恶在不同类型任务中的差异;第四,其他领域的研究也可以采用类似的方法论来回答有关人机协作和认知偏差的相关问题;最后,研究人员可以利用本文的新颖样本和数据来探究国家安全背景下各国在自动化偏差方面的差异。
词汇积累
automation bias
自动化偏差
algorithm aversion
算法偏差
value-relativism
Dunning-Kruger effect
邓宁—克鲁格效应
AI background index
AI背景指数
译者:何伊楠,国政学人编译员,外交学院外交学专业博士生。
来源:Michael C. Horowitz & Lauren Kahn, Bending the Automation Bias Curve: A Study of Human and AI-Based Decision Making in National Security Contexts, International Studies Quarterly, Vol. 68, No. 2, 2024, sqae020, https:///10.1093/isq/sqae020.
校对 | 高隆绪
审校 | 方桐
排版 | 崔梓玥 史轩
本文为公益分享,服务于科研教学,不代表本平台观点。如有疏漏,欢迎指正。