【BJA孟令忠教授团队】术后神经认知障碍与延迟神经认知恢复研究中预防效果的模式一项随机试验的系统综述与元回归分析

节

气

SUMMER

术后神经认知障碍与延迟神经认知恢复研究中预防效果的模式

一项随机试验的系统综述与元回归分析

术后认知 “隐形杀手”：187 项研究揭示预防新方向

🔍 核心问题：术后认知障碍为何难以攻克？

术后神经认知障碍（pNCD）和延迟神经认知恢复（dNCR）是外科手术后的常见并发症，患病率高达 10%~50%。这类障碍不仅导致患者记忆衰退、生活不能自理，还会使痴呆风险增加，每年给全球医疗系统带来巨大负担。尽管大量研究探索预防策略，但为何至今没有 “万能方案”？

这是一张关于围手术期神经认知障碍（Perioperative neurocognitive disorders ）临床试验现状与改进策略的总结性图表，核心围绕 “试验问题（Issues in trials）” 和 “干预建议（Recommendations for improvement）” 两大部分展开，帮你拆解关键信息：

一、上方「Issues in trials」：临床试验现存问题

列出围手术期神经认知障碍研究中，影响证据质量和结论可靠性的 10 大核心缺陷，是当前研究 “难以出高质量成果” 的关键痛点：

Regional variability

（地域差异）：干预措施的有效性在不同地区差异极大，比如中国和欧美试验结果常不一致。

Geographical imbalance

（地域失衡）：研究集中在部分地区（如中国试验占比超 50%），全球数据代表性不足。

Limited multicentre collaboration

（多中心协作不足）：单中心研究多，结果难推广到不同人群。

Underexplored interventions

（干预措施单一）：过度聚焦少数干预（如右美托咪定），限制创新。

Trial heterogeneity

（试验异质性）：干预方式多样、结局定义混乱，难以合并分析。

Inconsistent control groups

（对照组不一致）：对照组设计差异大（如有的用常规护理，有的用安慰剂），结果难对比。

Insufficient power

（检验效能不足）：样本量小、缺乏功效分析，结论可靠性低。

Publication bias

（发表偏倚）：未发表的阴性结果 “消失”，扭曲证据。

Risk of bias

（偏倚风险）：很多试验未严格控制混杂因素（如随机化、盲法不足）。

Short follow-up durations

（随访时间短）：长期神经认知结局（如术后 1 年 +）很少被评估，无法反映真实危害。

二、下方「Recommendations for improvement」：研究改进策略

针对上述问题，从 6 大维度 提出解决方案，是未来研究 “提质增效” 的行动指南：

Global research standardisation（全球研究标准化）

推动国际合作，统一研究设计和报告规范（如用 CONSORT 指南）。

开发通用认知评估工具（如统一 MMSE/MoCA 的使用标准），减少评估差异。

Enhancing trial design（优化试验设计）

强制注册试验，公开详细方案，避免 “选择性报告”。

严格遵循 CONSORT 指南，提高报告透明度。

Focus on novel interventions（聚焦创新干预）

优先探索新 / 少研究的干预措施（如非药物方案：认知预康复），别再重复验证旧方法。

给有潜力的 “冷门干预” funding，突破现有局限。

Promoting data transparency（数据透明化）

强制发表所有试验结果（包括阴性 / 无效结果），根治发表偏倚。

建立公开数据库，方便二次分析和 Meta 研究，让数据 “活起来”。

Multicentre collaboration（多中心协作）

开展跨国、多中心试验，覆盖不同人群 / 场景，提高结果普适性。

鼓励全球合作，平衡地域研究产出（如帮欠发达地区建研究网络）。

Strengthening oversight and accountability（加强监管与问责）

成立独立委员会，监督试验执行和伦理合规。

用外部审计、数据溯源技术（如区块链），确保数据真实可重复。

📊 关键发现：这些因素决定预防效果！

地域差异显著

中国开展的试验中，干预措施效果显著优于欧美及其他地区。例如，美国 / 加拿大试验的预防效果仅为中国的 1/3（OR 比值 3.04）。
麻醉方式影响大

使用挥发性麻醉剂的试验，预防效果比右美托咪定低 53%（OR 比值 2.12）。
试验设计藏玄机

注册试验的有效性比未注册试验高 31%（OR 比值 0.69），而进行功效分析的试验效果反而降低 43%（OR 比值 1.43）。
对照组患病率是 “风向标”

对照组 pNCD/dNCR 发生率每升高 1%，干预措施有效性提升 2%。

💊 最受关注的干预措施：右美托咪定的 “双刃剑”

使用最多

187 项研究中，20% 聚焦右美托咪定，被认为有潜在预防作用。
证据缺陷

尽管常用，但证据确定性 “极低”，可能受地域和试验设计影响。

🌍 为何中国研究效果更优？

可能与医疗体系、围术期管理差异有关。例如，中国更注重多模式干预（如认知预康复、优化镇痛），而欧美试验可能受限于单一干预方案。

📌 给临床和患者的启示

标准化刻不容缓

全球需统一认知评估工具（如 MMSE、MoCA）和试验设计，减少地域偏差。
多维度干预是趋势

单一药物（如右美托咪定）效果有限，需结合睡眠管理、疼痛控制等多组分策略。
患者参与预康复

术前认知训练、术后早期活动可能降低发病风险。

📚 研究局限性

中国试验占比 57%，可能高估部分干预措施效果。
多数研究为单中心，样本量偏小，长期效果数据不足。

🌟 未来方向

解决地域差异、推动多中心协作、探索 “精准预防”（如根据患者风险分层定制方案），是攻克术后认知障碍的关键。

摘要

背景：术后神经认知障碍和延迟神经认知恢复（pNCD/dNCR）是常见但尚未解决的术后并发症。

方法：我们在 Ovid MEDLINE、EMBASE、Web of Science 和 ClinicalTrials.gov 等资源中进行系统文献检索，并对随机对照试验（RCT）进行多变量元回归分析，以确定与 pNCD/dNCR 预防效果相关的试验水平特征。纳入研究成人手术患者 pNCD/dNCR 预防的试验，排除儿科患者或评估手术当天认知变化的试验。使用优势比（OR）比值和 95% 置信区间（CI）评估与试验特征相关的有效性。

结果：我们分析了 187 项符合条件的试验。与中国的试验相比，来自美国 / 加拿大（OR 比值 3.04；95% CI 1.62-5.73；P=0.001）、欧洲 / 澳大利亚 / 新西兰（1.58；1.04-2.40；P=0.033）和其他地区（2.0；1.19-3.36；P=0.009）的试验显示预防效果降低。对照组中较高的 pNCD/dNCR 发生率与更强的有效性相关（0.98；0.97-0.99；P<0.001）。与右美托咪定相比，涉及挥发性麻醉剂的试验（2.12；1.16-3.86；P=0.014）有效性降低，与腹部手术相比亦然。注册试验显示有效性增强（0.69；0.50-0.95；P=0.022），而报告功效分析的试验有效性降低（1.43；1.06-1.94；P=0.021）。在报告结果选择中存在高偏倚风险的试验有效性降低（2.99；1.04-8.59；P=0.041）。右美托咪定是研究最多的干预措施，显示出潜在益处，但证据确定性极低。

结论：试验水平特征与 pNCD/dNCR 研究中的预防效果显著相关。识别和解决区域差异的根本原因可能提高全球未来试验的质量和一致性。

Editor’s key points

术后神经认知障碍和延迟神经认知恢复（pNCD/dNCR）是常见但尚未解决的并发症。
这项基于 187 项试验的系统综述确定了与 pNCD/dNCR 预防效果相关的试验水平特征，包括研究来源地区、pNCD/dNCR 发生率、干预类型和手术类型、试验注册、功效分析和偏倚风险。
识别和解决区域差异的根本原因可能提高全球未来试验的质量和一致性。标准化方法、改进试验设计和加强研究实施也可以提高证据可靠性。

引言

术后认知障碍对患者、家庭、医疗系统和社会有重大影响。历史上称为术后认知功能障碍（POCD），这些障碍包括麻醉和手术后出现的一系列认知变化。2018 年，围手术期认知命名共识工作组建议使用 “围手术期神经认知障碍” 一词，以标准化围手术期观察到的认知障碍分类。该术语特别将术后谵妄（以意识混乱和波动为特征的急性状态）与延迟神经认知恢复（dNCR，术后 30 天内识别）和术后神经认知障碍（pNCD，术后 30 天至 12 个月诊断）区分开来，两者均描述了术后持续数周至数月的记忆、注意力、视觉空间能力和语言等认知缺陷。

【BJA孟令忠教授团队】术后神经认知障碍与延迟神经认知恢复研究中预防效果的模式一项随机试验的系统综述与元回归分析

先前的研究，尤其是在 2018 年引入标准化命名之前，通常使用 POCD 一词描述术后认知障碍，包括现在分别识别为 dNCR 和 pNCD 的情况。本研究使用这一更新术语，排除谵妄，专门指 pNCD 和 dNCR。这些疾病的患病率差异很大，为 10% 至 50%，受患者特征、评估方法、诊断规则以及麻醉和手术类型和时长等因素影响。发生 pNCD/dNCR 的患者表现出记忆、注意力、视觉空间能力和语言障碍，对术后恢复、独立性和生活质量产生不利影响。此外，pNCD/dNCR 与痴呆和死亡风险增加相关，凸显了有效预防策略的必要性。这些障碍的影响超出个体患者，通过延长住院时间、增加医疗资源利用和更高的长期护理需求，导致社会负担加重。

多种因素导致 pNCD/dNCR 易感性增加。高龄一直被报道为显著风险因素，高达 65% 的老年手术患者可能出现术后认知障碍。心理因素（如抑郁和焦虑）、睡眠质量差、疼痛控制不足、活动延迟和术后康复不足进一步恶化认知结局。手术时间更长、更复杂且麻醉暴露时间更长，以及特定麻醉技术（如吸入麻醉与静脉麻醉）可能显著影响认知风险。术前认知功能障碍（包括轻度认知障碍）进一步升高该风险，突显了术前常规认知评估的重要性。这种术前易感性可能因高血压和糖尿病等合并症而加剧，这些疾病通过脑灌注不足和神经炎症机制增加认知功能障碍的可能性。此外，出院后缺乏个性化认知康复可能导致持续认知衰退。

鉴于潜在风险因素的复杂性，单一模式预防策略的有效性有限。因此，证据日益支持多组分干预措施，解决各种可改变的围手术期因素，如优化睡眠卫生、加强镇痛方案以减少阿片类药物暴露，以及实施认知预康复计划。包括医院老年生活计划在内的综合方法已通过同时针对多种可改变风险因素显示出疗效。类似地，欧洲麻醉与重症监护学会 “安全脑倡议” 等倡议倡导综合预防策略，包括术前患者风险评估、优化麻醉深度、疼痛控制和血流动力学稳定，证明其有可能显著改善术后神经认知结局。

尽管进行了广泛研究，包括众多 RCT，但没有干预措施始终显示出预防pNCD/dNCR 的有效性。试验设计、方法和区域实践的持续变异性显著复杂化证据综合，并阻碍普遍接受的预防策略的发展。解决这些方法学不一致性对于推进循证围手术期认知护理至关重要。

方法

研究设计：大量关于 pNCD/dNCR 的 RCT 探索了多种预防干预措施，产生不一致的结果，未能建立公认的降低 pNCD/dNCR 发生率的策略。本研究旨在识别与 pNCD/dNCR 研究中报告的有效性相关的试验水平特征模式，不同于专注于特定临床问题单一干预措施的传统系统综述。分析了试验间变异的关键来源，包括试验来源差异、干预异质性、pNCD/dNCR 评估方法变异和手术患者人群差异。

为解决这些挑战，我们使用多变量元回归。试验区域按既定惯例分类。干预措施分组以平衡异质性降低和临床相关性。使用发生率数据评估 pNCD/dNCR 风险以确保方法学一致性，患者人群分层以维持分析可行性。本研究遵循系统综述和元分析的首选报告项目（PRISMA）指南，并于 2024 年 5 月 16 日在 PROSPERO（CRD42024543584）注册。本研究的设计、实施、报告或传播未包括患者或公众参与。

纳入标准：纳入符合以下标准的研究：（1）在接受手术或操作干预的成年患者中进行；（2）研究旨在预防 pNCD/dNCR 的干预措施；（3）设计为 RCT；（4）在术后期间（从第 1 天至 1 年）使用明确定义的方法将 pNCD/dNCR 评估为主要或关键结局；（5）在医院、手术中心、门诊站点或进行手术或操作干预的任何设施中进行；（6）以任何语言发表并提供全文用于偏倚风险评估。排除在儿科患者中进行或研究手术当天或 1 年后发生的认知变化的研究。

信息来源：2024 年 7 月 31 日，在三个数据库（Ovid MEDLINE、EMBASE 和 Web of Science）中进行全面系统检索。这些检索包括从每个数据库创建到检索日期的所有可用记录。为进一步增强检索策略，筛选合格文章和相关系统综述的参考文献列表。此外，检索 ClinicalTrials.gov 以识别更多研究。这种多方面方法旨在捕获所有相关研究，包括可能遗漏在主要数据库中的研究，确保全面和有代表性的证据基础。

检索策略：设计了详细的系统文献检索策略，在团队讨论中迭代完善以提高精确性和包容性。筛选合格试验和先前关于 pNCD/dNCR 的系统综述的参考文献列表。此外，使用术语 “postoperative cognitive dysfunction or decline” 和 “randomised controlled trial” 检索 ClinicalTrials.gov，以识别更多相关研究。

研究选择：使用 EndNote 管理通过各种文献检索确定的记录。使用 EndNote 中的 “查找重复项” 功能删除重复记录，随后进行手动审查以确保准确性。研究团队分为两组，平行独立评估去重记录以识别合格试验。任何分歧通过团队讨论解决以达成共识。

数据收集过程：数据收集由两个独立团队平行进行以确保准确性并最大限度减少偏倚。两个团队均使用预定义和标准化的 Excel 表格从合格研究中提取数据。该表格通过团队讨论协作开发并进行试点测试，以确保捕获所需信息的清晰度、一致性和完整性。数据提取后，系统比较两个团队的数据集以识别差异。任何不一致通过所有团队成员参与的研究会议审查和解决，以达成共识并确保数据准确性。

数据项目：从合格试验中收集以下变量：（1）试验来源地理区域；（2）发表年份；（3）期刊影响因子；（4）期刊开放获取状态；（5）试验注册状态；（6）是否进行功效分析；（7）单中心与多中心研究设计；（8）手术类型；（9）随机分配的参与者数量；（10）纳入分析的患者数量；（11）诊断为 pNCD/dNCR 的患者数量；（12）患者年龄；（13）干预方法；（14）对照组方法；（15）简易智力状态检查（MMSE）、蒙特利尔认知评估（MoCA）的均值和标准差（SD），或未报告 pNCD/dNCR 发生率时的任何形式评分。

试验区域分为中国、美国 / 加拿大、欧洲 / 澳大利亚 / 新西兰、中东和其他地区。来源区域根据患者招募的主要地点确定。对于涉及多个区域参与者的多中心试验，贡献大多数患者的区域被指定为试验来源。为验证区域分类，评估第一作者和通讯作者的工作地点。如果招募区域和作者地点不一致，分类基于贡献大多数患者的地点。

期刊影响因子数据来自 2024 年 Clarivate 报告和相应期刊网站。如果 publication 需要强制费用，则期刊分类为开放获取。手术程序分为腹部、心脏、骨科、胸科和其他 / 混合 / 不可分类类别。干预方法根据其机制和临床背景分类。

对于报告基于评分的 pNCD/dNCR 评估而非发生率的试验，我们通过将 pNCD/dNCR 定义为认知评分（如 MMSE 或 MoCA）较基线降低 1 或 2 个 SD 来估计发生率。该方法考虑了个体基线变异和人群差异，同时解决了术前和术后评分之间的关系。它增强了敏感性和特异性，确保统计稳健性，并支持研究间认知衰退的一致临床有意义定义。

偏倚风险评估：使用修订的 Cochrane 偏倚风险工具评估单个试验的偏倚风险，该工具评估关键领域，包括随机化过程、偏离预期干预、缺失结局数据、结局测量和报告结果的选择。两个独立研究团队进行平行评估以确保全面性并最大限度减少偏倚。评估之间的任何差异通过结构化团队讨论解决，促进共识并确保最终评估准确反映纳入研究的质量。

元回归：使用随机效应单变量和多变量元回归分析评估研究特征与预防有效性之间的关联。评估的特征包括参与者年龄、期刊影响因子、单中心与多中心试验设计、发表年份、试验注册状态、功效分析的执行、随机化患者总数、试验来源区域、手术类型、对照组中 pNCD/dNCR 的发生率、干预类型和偏倚风险。

鉴于干预措施的多样性，特别注意其分类。由于两种干预措施精确相同的情况罕见，且在回归模型中纳入众多干预类型不切实际，我们根据共同机制和临床背景将干预措施分组。这种方法确保了元回归框架内的可管理和临床相关分析。

单个研究中干预措施降低 pNCD/dNCR 的有效性使用优势比（OR）评估，定义为干预组中 pNCD/dNCR 的优势比除以对照组中的优势比。研究特征与干预有效性之间的关联表示为 OR 比值。例如，美国和加拿大试验与中国试验比较时 OR 比值为 2，表明美国和加拿大试验中 pNCD/dNCR 的 OR 是中国的两倍。这表明在美国和加拿大进行的试验中研究的干预措施效果较差，因为较高的 OR 反映有效性降低。

一些试验直接报告 pNCD/dNCR 发生率，而其他试验仅提供基于评分的结局。为解决此问题，我们进行了单独分析。首先，仅纳入报告 pNCD/dNCR 发生率的试验，排除基于评分的试验。其次，通过使用详细方法估计基于评分的试验的 pNCD/dNCR 发生率，纳入所有合格试验。对于这些估计，应用两种方法：一种将 pNCD/dNCR 定义为评分降低 1 个 SD，另一种定义为降低 2 个 SD。所有元回归分析使用 R 软件（版本 4.3.2）中的 “meta” 包进行。结果报告为 OR 比值及相应的 95% CI 和P值。

结果

研究选择：2024 年 7 月 31 日进行的系统文献检索确定了 1831 条记录。去除 338 条重复记录并排除 10 条撤回记录后，剩余 1483 条记录进行筛选。其中，403 条被选择进行资格评估，110 条符合资格标准。通过合格研究和先前系统综述的引文筛选确定了另外 73 条记录，而 ClinicalTrials.gov 检索产生了 4 条更多记录。总共 187 条记录纳入分析。

研究特征：187 项合格试验的关键特征总结在补充表 1 中。其中，69%（129/187）于 2015 年后发表，表明过去十年中相关试验数量不断增加。此外，83%（155/187）的试验报告了 pNCD/dNCR 发生率，而 17%（32/187）仅提供 MMSE 或 MoCA 评分而未直接报告发生率。155 项试验中对照组的 pNCD/dNCR 中位发生率为 27.3%（四分位距 [IQR] 17.9-40.4%），而干预组为 16.1%（IQR9.3-28.5%）。在 32 项基于评分的试验中，29 项使用 MMSE，3 项使用 MoCA。83%（156/187）的试验在术后 1-7 天内评估 pNCD/dNCR，6%（11/187）在 8-30 天，9%（17/187）在 1-3 个月内，2%（3/187）在 3 个月后。

在这些试验中，93%（173/187）为单中心，7%（14/187）为多中心。50%（95/187）已注册，64%（120/187）进行了适当的功效分析。试验的中位样本量为 100（IQR68-159）名随机患者，中位患者年龄为 68 岁（IQR63-71）。手术类型多样，20%（37/187）的试验报告骨科手术，26%（49/187）为心脏手术，18%（34/187）为腹部手术，7%（13/187）为胸科手术，29%（54/187）为其他 / 混合 / 不可分类手术。

地理上，57%（106/187）的试验来自中国，其次是欧洲、澳大利亚和新西兰（18%，33/187）、中东（10%，19/187）、美国和加拿大（8%，15/187）和其他地区（7%，14/187）。这些分布突显了 pNCD/dNCR 试验领域中研究重点和产出的区域差异。

干预措施分类：合格试验涵盖广泛的干预措施，根据临床共性分类。当至少五项试验具有临床合理的相似性时，建立类别。然而，21%（40/187）的试验被分类为不可分类，因为它们未达到此阈值。在分类的干预措施中，右美托咪定是研究最多的药物，20%（37/187）的试验评估其有效性。这种干预措施的多样性突显了识别预防 pNCD/dNCR 有效策略的广泛兴趣和探索性质。

多变量元回归中与有效性相关的特征：多变量元回归分析确定了与干预有效性相关的关键试验特征。在 155 项报告 pNCD/dNCR 发生率的试验中，2011-2015 年发表的试验与 2005 年前发表的试验相比 OR 显著更高（OR 比值 2.13；95% CI1.14-3.98；P=0.018），反映近期试验的有效性降低（但 2016-2024 年发表的试验无此差异）。对照组中较高的 pNCD/dNCR 发生率与 OR 呈负相关；pNCD/dNCR 发生率每增加 1%，OR 降低 2%（OR 比值 0.98；95% CI0.97-0.99；P<0.001），表明在 pNCD/dNCR 发生率较高的试验中有效性更强。此外，涉及挥发性麻醉剂的试验与使用右美托咪定的试验相比 OR 显著更高（OR 比值 2.12；95% CI1.16-3.86；P=0.014），表明有效性降低。

地理变异也影响有效性。与在中国进行的试验相比，在美国和加拿大（OR 比值 3.04；95% CI1.62-5.73；P=0.001）、欧洲、澳大利亚和新西兰（OR 比值 1.58；95% CI1.04-2.40；P=0.033）以及其他地区（OR 比值 2.0；95% CI1.19-3.36；P=0.009）进行的试验 OR 显著更高，表明这些地区的有效性降低。

这些发现得到了包括所有 187 项试验的额外分析的支持，纳入了 32 项报告 MMSE 或 MoCA 评分而非 pNCD/dNCR 发生率的试验。在一项分析中，pNCD/dNCR 发生率基于术后评分相对于术前评分降低 1 个 SD 估计，另一项分析使用降低 2 个 SD。

从这些额外分析中获得了进一步见解。注册试验与未注册试验相比 OR 显著更小（OR 比值 0.69；95% CI0.50-0.95；P=0.022），表明注册试验中有效性增强。相比之下，进行功效分析的试验与未进行功效分析的试验相比 OR 显著更高（OR 比值 1.43；95% CI1.06-1.94；P=0.021），表明这些试验中有效性降低。在报告结果选择中存在高偏倚风险的试验与有效性降低相关（OR 比值 2.99；95% CI1.04-8.59；P=0.041）。

元分析和证据确定性：进行元分析以补充多变量元回归的发现。在确定与有效性相关的试验特征后，进行成对频率主义元分析，以评估在足够数量试验中研究的干预措施的疗效。认识到面向干预措施分析中的固有混杂因素（如干预方法异质性），分析仅限于评估相同干预措施的试验。根据多变量元回归中确定的显著试验特征进一步分层。为确保可靠性，仅纳入总体偏倚风险低的试验。通过将分析限制为使用常规护理作为对照的试验，维持对照组的一致性。

元分析使用随机效应模型，利用 R 软件中的 “meta” 包进行。合并有效性估计表示为 OR 及 95% CI。试验间异质性使用I² 统计量评估，该统计量量化归因于异质性而非机会的变异比例。

使用 GRADE 框架评估支持元分析估计的证据确定性。该方法系统评估五个领域的证据：不精确性、不一致性、间接性、偏倚风险和发表偏倚。批判性评估每个领域以确定其对目标结局证据可靠性的影响。通过确保结构化和透明的方法，GRADE 方法提供有充分支持和可靠的结论。

讨论

主要发现：本系统综述和元回归分析在 187 项合格试验中确定了与 pNCD/dNCR 预防效果相关的关键特征。区域差异显著，在中国进行的试验比在美国、加拿大和其他地区的试验有效性更高。右美托咪定是研究最多的干预措施，显示出降低 pNCD/dNCR 发生率的潜力。然而，试验异质性、不精确性和发表偏倚降低了对这些发现的信心。

试验设计特征也显著影响结局。对照组中较高的 pNCD/dNCR 发生率与更强的干预有效性相关，而涉及挥发性麻醉剂或心脏手术的试验与右美托咪定和腹部手术相比有效性降低。未报告功效分析的试验报告了更强的干预有效性。注册试验显示有效性增强，而未注册试验显示有效性降低。此外，2011-2015 年发表的试验与 2005 年前发表的试验相比有效性降低，尽管过去十年的试验未显示此类差异。

与其他研究的比较：我们的发现既证实又扩展了先前关于术后谵妄预防效果区域变异的研究。在中国进行的试验比其他地区表现出更高的疗效，这种差异可能归因于医疗系统、围手术期实践、患者特征和其他未确定因素的差异。中国研究的过度代表（占纳入试验的 57%）突显了研究产出的不平衡，可能限制发现的普遍性。这可能与中国医疗企业的规模和研究生产力激励措施有关。此外，文化和后勤因素（如认知评估工具使用的可变性和报告标准的差异）进一步复杂化全球证据的综合和解释。

研究和临床意义：围手术期神经认知障碍（包括 pNCD/dNCR 和术后谵妄）的证据基础受到若干方法学挑战的限制。试验设计、结局定义和认知评估工具的异质性限制了可比性并降低了合并估计的可靠性。许多试验表现出与随机化、盲法和不完全随访相关的方法学问题，导致高或不明确的偏倚风险。发表偏倚进一步扭曲证据基础，未发表的研究可能扭曲总体发现。此外，单中心研究的优势、不一致的对照组方法和小样本量加剧了这些限制，共同削弱了关于预防干预措施疗效结论的稳健性。

为解决这些挑战，提高围手术期神经认知障碍研究的方法学严谨性和全球标准化势在必行。遵守 CONSORT 指南、前瞻性试验注册和使用经过验证的认知评估工具对于确保研究设计和报告的一致性至关重要。协作多中心试验对于在不同人群中验证发现、解决区域差异和增强结果的普遍性至关重要。将研究扩展到充分研究（或过度研究）的干预措施（如右美托咪定）之外，转向未充分探索的治疗选择，可以促进创新并满足未满足的临床需求。通过强制发表所有试验结果（无论结果如何）来促进数据透明性，对于最大限度减少发表偏倚、确保可重复性和提高合并估计的确定性至关重要。

尽管未直接确定研究不端行为，但其潜在威胁对围手术期神经认知研究和所有研究的完整性仍然重大。数据操纵、捏造和选择性报告等行为破坏证据基础、误导临床指南、削弱对研究的信任，并可能伤害患者。检测不端行为尤其具有挑战性，因为病例报告表被操纵、电子健康记录因缺乏常规 pNCD/dNCR 和谵妄评估而存在差距，以及神经认知评估的主观性。解决这些问题需要建立标准化监督机制，包括原始记录的定期独立审计和试验数据的第三方监测。专注于伦理研究实践和报告最佳实践的全球教育计划，结合技术驱动措施（如自动异常检测系统和区块链数据透明性）至关重要。通过对不端行为的严格惩罚和强大的举报人保护来加强问责制，对于保护临床研究的完整性也至关重要。

这些发现的临床意义要求对实施 pNCD/dNCR 预防干预措施采取谨慎态度。例如，尽管右美托咪定在低风险试验中显示出潜在益处，但将这些发现转化为临床实践需要仔细考虑普遍性、成本效益、可行性和资源可用性。干预措施不仅应评估其对 pNCD/dNCR 的影响，还应评估其对神经认知结局和整体患者福祉的更广泛影响。此外，观察到的区域差异突显了在当地医疗基础设施和文化实践背景下批判性解释证据的重要性，以确保适当和有效的采用。

结论

本研究为 pNCD/dNCR 研究中与预防效果相关的试验水平特征模式提供了新见解。通过将重点从评估特定干预措施转向理解影响结局的更广泛方法学和背景因素，本工作为改进未来试验的设计、实施和报告奠定了基础。关键特征的识别突显了试验方法学中更大标准化的需求，并提供了可操作的策略来增强 pNCD/dNCR 研究的可靠性和临床相关性。

为推进该领域，未来努力必须解决本研究中确定的关键差距，重点是完善研究方案和促进全球合作以减轻变异性。通过优先考虑方法学严谨性和伦理研究实践，pNCD/dNCR 研究可以更好地指导临床决策，优化围手术期护理，并减轻手术患者认知功能障碍的负担。本研究强调了采取整体和循证方法来改善这一复杂和未充分解决领域的研究质量和患者结局的重要性。