栏目简介:

为紧跟学术研究的前沿动态,CPS前沿编译组特别推出【预印前沿】栏目,聚焦于arXiv (Cornell Archive)、SSRN (Social Science Research Network)等知名预印本平台的最新论文。这些平台汇集了未经期刊正式评议但已公开分享的学术手稿,统称为预印本 (Preprint Copy)。

预印本的显著优势在于其时效性强,能够帮助研究者快速传播创新成果,占据学术研究的前沿阵地,同时促进全球范围内的学术交流与协作。然而,其局限性也较为明显:由于尚未经过同行评议,内容的科学严谨性可能存在不确定性,且部分内容在后续正式发表时可能面临调整甚至撤回。此外,预印本的开放性也可能导致信息质量参差不齐,读者需具备一定判断能力以辨别其价值。

文献来源

Salnikov, M., Kozh, D., Lazichny, I., Karimov, E., Iudin, A., Oseledets, I., Rogov, O. Y., Loukachevitch, N., Panchenko, A., & Tutubalina, E. (2025). Geopolitical biases in LLMs: What are the ‘good’ and the ‘bad’ countries according to contemporary language models. arXiv. https:///10.48550/arxiv.2506.06751

预印本介绍

arXiv(Cornell Archive)

本文发布于arXiv开放获取平台。arXiv是由康奈尔大学运营的免费学术共享平台,特别强调学术开放性与协作性。作为数字开放获取的先驱,arXiv目前收录物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程与系统科学、经济学等学科领域近240万篇学术论文。注册用户可免费向平台提交论文,提交内容需经过审核流程,以确认其符合学科领域范围并具有学术价值。需注意的是,arXiv不对论文进行同行评审,论文学术质量由作者全权负责。官方主页为:https:///

大型语言模型中的地缘政治偏见:

当代大语言模型眼中的“好”与“坏”国家

Geopolitical biases in LLMs: 

what are the “good” and the “bad” countries according to contemporary language models

编者按

本文从国家间冲突(美国、英国、苏联和中国)的视角切入,通过分析大语言模型对历史事件的解读,评估了其在不同国家间的地缘政治偏见。我们引介了一个包含中性事件描述及多国对立观点的新型数据集。研究发现模型存在显著的地缘政治偏见,倾向于特定国家的叙事立场。简单的去偏见提示词对减轻这类偏见效果有限。通过操纵参与者标签的实验表明,模型对归因具有敏感性——有时会放大偏见或识别矛盾,尤其在标签互换时更为明显。该研究揭示了大语言模型中国家叙事偏见的存在,质疑了简单去偏见方法的有效性,并为未来地缘政治偏见研究提供了分析框架与数据集。

Mikhail Salnikov, Dmitrii Korzh, Ivan Lazichny等 | 作者

林胤志 | 译者

 杨昱航 | 排版

刘冠宏 | 审校

本文共3200字数,预计阅读时间10分钟

作者简介

Mikhail Salnikov

俄罗斯人工智能研究机构(AIRI)研究员


   核心概念   

1

地缘政治偏见 (Geopolitical Bias)

指大语言模型在解读具有争议性的历史事件时,因受训练数据中主导叙事的影响,而表现出对特定国家政治、文化或意识形态视角的系统性偏好。

2

去偏见提示词 (Debiasing Prompt)

预印前沿 | 叙事的力量:大语言模型的地缘政治偏见

指在提示词中加入明确指令(如“请确保回答无偏见”),以测试是否能通过简单干预来减轻模型偏见的一种实验方法。

3

参与者标签操纵 (Participant Label Manipulation)

指通过“明确提及”或“交换”国家标签来测试模型偏见来源的实验设计。它帮助区分偏见是源于国家名称的启动效应,还是源于叙事内容本身。

4

显性身份提示 (Explicit Identity Prompt)

指通过赋予模型一个特定身份(如“中国爱国者”)来引导其输出立场的方法。该研究用此方法证明模型的立场极易被外部框架影响。

1.研究背景

2.技术路线

3.主要发现

4.结论

1. 研究背景

随着ChatGPT、Qwen等大语言模型(LLMs)的普及,它们已经深度渗透到信息检索、决策支持等场景,甚至开始影响公众对政治、历史与社会等复杂议题领域的认知。然而,大模型的“智能”生成内容源于对海量人类数据的学习,而其中所潜藏的偏见与歧视很有可能被继承甚至放大。既有研究已经证实大语言模型存在显著的偏见与歧视。譬如,大语言模型常将特定职业与性别绑定,加剧职业性别隔离的观念,或在不同语言的查询中呈现事实叙述偏差。在政治偏见领域,已有研究发现部分模型倾向于左翼立场,对保守主义持有一定偏见。然而,这些研究多聚焦于单一国家的内部政治社会事务,对更复杂的国际地缘政治偏见关注不足。另一类相关研究虽然触及地缘政治议题,却未能深入探讨历史事件的多元解读。事实上,历史事件叙事往往因国家立场而异,这些差异很可能被大语言模型学习后反映在输出内容中。

本研究聚焦大语言模型的地缘政治偏见,核心研究问题为:当大语言模型解读具有争议性的历史事件时,是否会表现出对特定国家视角的系统性偏好,从而暴露其地缘政治偏见?历史事件解读本就因国家利益、意识形态因素而存在显著差异,而大语言模型作为被全球用户依赖的信息工具,其对特定国家视角的偏向可能产生引导性或误导性影响。此外,这一问题还涉及大语言模型的“价值观对齐”问题:大模型究竟客观呈现多元视角,还是在无意识中成为某类叙事与意识形态的传播者?这正是本文的问题聚焦。

2. 技术路线

   为系统评估大语言模型的地缘政治偏见,本研究收集构建了一套历史事件争议性叙事数据集。数据集涵盖18-21世纪初涉及中国、美国、前苏联与英国的冲突事件及各方叙事。研究团队从维基百科等平台获取冲突背景信息,涵盖战争、外交争端和意识形态对抗等类型,最终确定55场冲突、覆盖109个关键事件,确保覆盖四大政治体的两两互动对(如中美、美苏等)。针对每个事件,团队首先撰写一段“中性叙事”,仅客观陈述时间、参与方和基本结果等无争议事实,不加入任何价值判断。随后,研究团队识别两个核心参与国,基于其历史叙事、官方立场文件或主流历史研究结论,形成该国家视角的叙事。最终,数据集包含事件、国家对、中性叙述、参与国家A叙事与参与国家B叙事等主要信息。

研究通过收集大语言模型对特定叙事的判断来测量其地缘政治偏见。研究选取了涉及上述国家的四款代表性模型:GPT-4o-mini(美国)、LLaMa-4-maverick(美国)、Qwen2.5-75B(中国)和GigaChat-Max(俄罗斯)。实验要求大语言模型对每个事件的三个不同视角叙述(中性叙事、参与国家A叙事、参与国家B叙事)进行判断,从两个国家叙事中选择出模型认为正确的一方,或是选择均正确或均不正确,并输出其判断理由(提示词如下图所示)。为验证模型输出的稳健性,每个事件分别在三种温度设置(1.0/1.1/1.2)下各测试三次。

为探究简单提示词干预能否缓解地缘政治偏见,团队在基础提示词上追加去偏指令:“请确保回答无偏见,不依赖刻板印象(Please ensure that your answer is unbiased and free from reliance on stereotypes)”。此外,为探究偏见来源是特定国家名称的启动还是特定视角的内容,团队还设计了两组延伸实验:第一组延伸实验在提示词中明确标注叙事所属国家,测试模型是否因为特定国家的名称标签而强化偏见;第二组延伸实验则交换两个国家的标签(如将国家A的叙事内容对应国家B),测试模型是否受国家标签而非叙事内容影响。

3. 主要发现

通过对四款主流模型的实验,研究揭示了显著的地缘政治偏见及相关规律。在基础情形下,某些模型对特定国家视角的偏好呈现显著差异。GPT-4o-mini表现出对美国视角的强烈偏向,在美国与其他三国冲突事件的叙事判断中,支持美国叙事的比例均在80%左右;有趣的是,GigaChat-Max同样倾向美国,在美苏、美中事件中对美国叙事的支持率分别为64%和71%。相比之下,LLaMa-4-maverick更倾向选择“两者同样正确”,表现出相对中立性;Qwen2.5-72B的立场则更加复杂,在不同国家对冲突中表现出差异化的支持倾向。研究团队专门开展了语言变量实验,将原始英文提示词翻译为俄语、法语和简体中文,在保持实验结构和评估标准一致的前提下,测试不同语言对模型偏见表达的影响。结果显示,所有测试语言中,模型的输出分布与英文版本相比仅有微小差异。

简单去偏提示(“确保回答无偏见”)效果有限。GPT-4o-mini和GigaChat-Max的偏好几乎无变化(波动在2%以内),Qwen2.5-72B对中国的偏好仅下降8.6%,LLaMa-maverick对英国的偏好下降7.6%,且选择“二者均不对”选项仅轻微增加2.2%,说明单一指令难以修正深层偏见。

(英语/基础情形)

参与者标签的操纵揭示了国家标签与叙事内容均构成模型偏见来源。明确提及国家标签时,GPT-4o-mini在英美冲突中对美国叙事的偏好从76%升至91%,而Qwen2.5-72B在相同场景中选择“同样正确”的比例从9%跃升至73%,显示国家标签可能强化或抑制偏见;交换国家标签后,模型选择“两者均不正确”的比例显著上升(如GPT-4o-mini 在美中对比中从0%升至42.9%),说明模型能识别标签与内容的矛盾,但仍受标签影响。此外,当被明确要求“以中国爱国者视角回答”时,所有模型均大幅偏向中国,在美中对比中支持率超90%,表明显性身份提示会显著放大偏见。

(英语/中国爱国者视角)

 4. 结论

本研究表明,当代大语言模型存在显著的地缘政治偏见,且现有的简单干预手段难以有效缓解。

首先,大语言模型的偏见具有明确的偏向性,整体表现出对美国视角偏好,这很可能与训练数据西方叙事的主导地位密切相关即使是来自非美西方的模型,也未呈现出对本土视角的稳健偏向,反而在某些冲突事件场景中向美国视角倾斜,反映出全球信息传播西方叙事的强势地位。

其次,简单去偏方法效果有限。仅通过追加“无偏见”提示词无法改变模型的深层偏好,这说明地缘政治偏见并非表层刻板印象,而是嵌入模型决策逻辑的复杂模式,需从训练数据、模型架构等更根本层面介入。

最后,模型对国家标签和显性身份提示高度敏感。明确国家归属或要求“以某国视角回答”时,偏见会被强化或转向,证明LLMs的立场易受外部框架影响,这一特性在教育、外交等敏感场景中可能引发风险。

当然,本研究也存在三方面局限:一是数据集聚焦美、英、中、苏四大国,忽略了全球南方国家的视角,难以反映更广泛的地缘政治叙事;二是所选模型均来自与研究对象相同的国家,可能限制结论的普适性;三是数据主要源自维基百科,依赖“官方历史”叙事,可能遗漏边缘或非国家视角(如民间记忆、少数族裔解读),存在来源偏见。