【Anesthesiology最新！】一眼看穿术后谵妄风险！做个 “眼动测试”，预测准确率超 89%｜北医三院顶刊新发现

DECEMBER

十二月你好，早安！

Luffy总结

本研究于 2022 年 8 月至 2024 年 8 月在北京大学第三医院开展，纳入 316 名≥65 岁关节置换术患者，通过对比神经心理测试（MMSE、MoCA）、分子生物标志物（血清 / 脑脊液 NfL 等）与扫视任务参数对术后谵妄（POD）的预测效果发现，POD 发生率为 8.2%（26/316），扫视参数（包括 prosaccade 任务的反应时间、初始扫视误差、扫视增益，antisaccade 与 memory-guided saccade 任务的峰值速度） 预测准确性最优，逻辑回归模型（AUROC=0.81）及多层感知器机器学习模型（测试集 AUROC=0.89）均优于神经心理测试（AUROC=0.64）和分子生物标志物（NfL，AUROC=0.61），提示扫视参数可作为预测老年关节置换患者 POD 的补充行为生物标志物。

思维导图

详细总结

一、研究核心信息

项目	详情
研究标题	Saccade tasks: A non-invasive approach for predicting postoperative delirium in elderly arthroplasty patients
发表期刊	Anesthesiology（2025 年录用，DOI:10.1097/ALN.0000000000005875）
研究团队	北京大学第三医院麻醉科、老年病科等多科室联合团队
funding	科技创新 2030 计划（2021ZD0204300）、认知神经科学与学习国家重点实验室开放基金

二、研究设计与对象

试验设计

前瞻性队列研究，数据收集时间 2022 年 8 月 – 2024 年 8 月，所有参与者签署知情同意书，通过盲法设计保障数据可靠性。

研究对象筛选

纳入标准：年龄≥65 岁，美国麻醉医师协会（ASA）分级 I-III 级，拟接受全膝关节置换术（TKA）或全髋关节置换术（THA），采用腰麻技术。

排除标准：包括精神分裂症、癫痫等神经精神疾病，严重视听读写障碍，酒精依赖等物质滥用，白内障、青光眼等影响眼动追踪的眼部疾病，以及无法配合研究流程者。

最终样本：316 名患者，其中术后谵妄（POD）组 26 人（发生率 8.2%），非 POD 组 290 人。

三、评估指标与方法

术前评估

Prosaccade（PS）任务：评估注意力，需快速扫视至目标位置；

Antisaccade（AS）任务：评估抑制功能，需扫视至目标镜像位置；

Memory-guided saccade（MGS）任务：评估工作记忆，需记忆目标位置后扫视。

记录参数：反应时间、初始扫视误差、扫视增益、峰值速度等。

神经心理测试：Mini – 精神状态检查（MMSE）、蒙特利尔认知评估（MoCA），由经验丰富的老年病科医生实施。

分子生物标志物：术前 1 天采集外周血，脊髓麻醉成功后采集脑脊液，检测 IL-6、CRP、NfL、GFAP、Aβ40、Aβ42、p-Tau217 共 7 项指标。

扫视任务：术前 1 天在安静环境中进行，采用红外眼动追踪仪（采样率 1kHz），包含 3 类任务：

术后 POD 评估

术后 1-3 天每日 8:00 和 20:00，由 2 名老年病科医生采用混淆评估法（CAM）和记忆谵妄评估量表（MDAS）评估，分歧通过专家小组讨论解决。

四、关键研究结果

POD 组与非 POD 组基线差异

神经心理测试：POD 组 MMSE 中位数（25）、MoCA 中位数（21）显著低于非 POD 组（分别为 27、23），p 值均 < 0.05；
分子生物标志物：POD 组血清 NfL 水平（36.76±16.83 pg/mL）显著高于非 POD 组（30.51±11.89 pg/mL），调整年龄性别后 p=0.042，其余 6 项指标无显著差异；
扫视参数：POD 组 5 项参数显著更差（p<0.05），具体如下表：

扫视参数	任务类型	非 POD 组均值 ±SD	POD 组均值 ±SD	p 值
反应时间（ms）	PS	239.66±43.07	269.61±45.44	0.030
初始扫视误差（度）	PS	2.34±1.47	2.92±1.43	0.035
扫视增益	PS	0.81±0.10	0.74±0.15	0.046
峰值速度（度 / 秒）	AS	379.93±94.08	331.43±122.74	0.041
峰值速度（度 / 秒）	MGS	316.41±75.31	275.52±71.74	0.032

预测准确性对比

神经心理测试（MMSE+MoCA）：AUROC=0.64（95% CI：0.53-0.76）；
分子生物标志物（NfL）：AUROC=0.61（95% CI：0.50-0.72）；
扫视参数（逻辑回归 + 限制性立方样条）：AUROC=0.81（95% CI：0.70-0.92）；
扫视参数（多层感知器机器学习模型）：训练集 AUROC=0.91，测试集 AUROC=0.89（95% CI：0.82-0.94），校准度和可靠性更优。

POD 临床特征

发病时间：96.2%（25/26）在术后第 1 天发病，3.8%（1/26）在术后第 2 天发病；
恢复时间：80.8%（21/26）在术后 48 小时内恢复，19.2%（5/26）持续超过 48 小时；
亚型分布：低活动型 17 例（65.4%）、高活动型 6 例（23.1%）、混合型 3 例（11.5%）；
严重程度：MDAS 评分中位数 8 分（IQR=2），最高 19 分。

五、研究结论与局限

结论

扫视参数对老年关节置换患者术后谵妄（POD）的预测准确性显著高于神经心理测试（MMSE、MoCA）和分子生物标志物（NfL 等），可作为预测 POD 的补充行为生物标志物。

局限

单中心研究，POD 病例数较少（26 例），可能存在选择偏倚，结果外推性受限；

认知评估采用 MMSE 和 MoCA，未使用认知评估金标准工具；

术后首次 POD 评估始于术后第 1 天，未覆盖手术当日的早期发病情况。

关键问题

问题 1：本研究中扫视任务相比传统神经心理测试和分子生物标志物，预测老年关节置换患者 POD 的核心优势是什么？

答案：核心优势体现在预测准确性更高且兼具非侵入性与客观性。具体而言，扫视参数通过机器学习模型预测 POD 的 AUROC 达 0.89（95% CI：0.82-0.94），显著高于神经心理测试（AUROC=0.64）和分子生物标志物（AUROC=0.61）；同时，扫视任务无需侵入性采样（区别于分子生物标志物的血 / 脑脊液采集），且不受评估者主观偏差影响（区别于需专业人员实施的 MMSE、MoCA），操作简单、可标准化，更适合临床术前快速筛查。

问题 2：本研究中 POD 组患者在扫视任务和基线指标上呈现出哪些典型特征？

答案：（1）扫视任务特征：POD 组在 3 类扫视任务中表现出 5 项显著异常参数，包括 PS 任务的反应时间延长（269.61ms vs 239.66ms）、初始扫视误差增大（2.92 度 vs 2.34 度）、扫视增益降低（0.74 vs 0.81），以及 AS、MGS 任务的峰值速度减慢（331.43 度 / 秒 vs 379.93 度 / 秒、275.52 度 / 秒 vs 316.41 度 / 秒），反映注意力、抑制功能、工作记忆及运动控制能力受损；（2）基线指标特征：POD 组术前 MMSE 和 MoCA 评分显著更低（中位数分别为 25、21），血清 NfL 水平显著更高（36.76±16.83 pg/mL vs 30.51±11.89 pg/mL），而年龄、性别、手术类型等人口学和临床特征无显著差异。

问题 3：本研究中 POD 的临床发病规律和亚型分布有何特点？对临床护理有哪些启示？

答案：（1）发病与恢复规律：POD 发生率为 8.2%，96.2% 的病例在术后第 1 天发病，80.8% 的病例在术后 48 小时内恢复，仅 19.2% 持续超过 48 小时；（2）亚型分布：以低活动型为主（65.4%），高活动型占 23.1%，混合型占 11.5%；（3）临床启示：① 术后 48 小时内是 POD 监测的关键窗口期，需重点关注术后第 1 天的患者认知状态；② 低活动型 POD 占比最高，其症状可能更隐匿（如嗜睡、反应迟钝），护理中需避免漏诊，可结合 CAM 量表每日两次规范评估；③ 对术前扫视参数异常的高危患者，可提前制定个体化护理方案（如减少镇静药物使用、早期活动、环境干预等），降低 POD 发生风险。

述评

这篇研究能发表在《Anesthesiology》（麻醉学领域顶刊，IF≈10+，中科院 1 区 TOP），核心在于其创新性、临床价值、研究严谨性与领域贡献的高度契合—— 顶刊筛选论文的核心标准是 “是否解决了领域关键痛点”“研究设计是否科学可靠”“结果是否具有转化潜力”，而该研究在这三方面均表现突出，具体可拆解为以下 5 点：

一、创新性：填补 POD 预测的核心空白，提出非侵入性 “行为生物标志物” 新方向

术后谵妄（POD）是老年手术患者的高发并发症（本研究发生率 8.2%），但长期存在 “预测工具不可靠” 的痛点：

传统神经心理测试（MMSE、MoCA）：依赖专业人员操作，存在主观偏差，且受教育水平影响大；

分子生物标志物（血清 / 脑脊液 NfL、Aβ 等）：侵入性强（需采血 / 腰穿），且既往研究证实其与 POD 的关联不一致，预测效果有限。

该研究的核心创新的是首次系统性验证 “扫视任务参数” 对老年关节置换患者 POD 的预测价值：

视角创新：将眼动追踪技术（扫视任务）从 “认知功能评估” 拓展到 “围手术期 POD 预测”，既往眼动研究多聚焦于谵妄患者的特征描述（如视觉注意力异常），而本研究是首个将其作为 “术前预测工具” 的前瞻性研究；

方法创新：通过 3 类扫视任务（PS 评估注意力、AS 评估抑制功能、MGS 评估工作记忆），精准捕获 POD 相关的 “早期认知 – 运动整合缺陷”，且参数可量化、无主观偏差，弥补了传统方法的缺陷；

结果创新：证实扫视参数的预测准确性（机器学习 AUROC=0.89）显著优于神经心理测试（AUROC=0.64）和分子标志物（AUROC=0.61），提出 “扫视参数可作为 POD 补充行为生物标志物” 的新结论，为领域提供了全新的预测思路。

二、临床价值：解决临床刚需，具备直接转化潜力

顶刊高度重视研究的 “落地性”，而该研究的核心优势是兼顾 “高准确性” 与 “临床可行性”：

非侵入性 + 易操作：扫视任务仅需术前 1 天通过红外眼动仪（常规设备）完成，测试时间短（每类任务含多次试次，整体耗时可控），无需侵入性采样或专业人员长期培训，适合手术室、老年病科的术前快速筛查；

精准识别高危人群：POD 可导致长期认知障碍、死亡率升高，而该工具能提前筛选出高风险患者（如扫视反应时间延长、峰值速度减慢者），为临床制定个体化干预方案（如调整麻醉方案、减少镇静药物、早期康复）提供依据，直接契合 “围手术期质量提升” 的临床刚需；

标准化程度高：扫视参数（反应时间、误差、增益等）可通过软件自动计算，避免了神经心理测试的 “评估者差异”，便于多中心推广和临床常规应用。

三、研究严谨性：设计规范、统计可靠，符合顶刊学术标准

顶刊对研究方法学的要求极高，该研究在 “前瞻性队列设计、变量控制、统计分析” 上均无明显短板：

设计规范：

严格的纳入 / 排除标准（聚焦≥65 岁 TKA/THA 患者，排除精神疾病、眼部疾病等干扰因素），样本量计算合理（基于预实验结果，考虑 20% 脱落率，最终纳入 316 人，POD 组 26 人，满足统计检验效力）；

盲法设计：神经心理测试、分子标志物检测、扫视任务执行者均 “盲于 POD 诊断结果”，数据收集与分析团队独立，避免偏倚；

伦理与注册：通过北京大学第三医院伦理审批（IRB00006761-M2022303），在中国临床试验注册中心注册（ChiCTR2200062483），符合国际临床研究规范。

统计方法严谨：

基础分析：采用 t 检验、Mann-Whitney 检验、卡方检验对比组间差异，调整年龄、性别等混杂因素；

预测模型：同时使用 “逻辑回归 + 限制性立方样条”（处理扫视参数与 POD 的非线性关系）和 “多层感知器机器学习”（优化预测准确性），并通过 “训练集 / 测试集拆分（8:2）+5 折交叉验证” 验证模型稳定性；

结果验证：不仅报告 AUROC，还提供 PPV – 敏感性曲线、校准图，全面证明模型的可靠性，符合顶刊对 “预测模型研究” 的统计要求。

四、多学科协作：整合临床、基础、工程技术，提升研究深度

研究团队来自麻醉科、老年病科、认知神经科学、心理系、骨科、临床流行病学等多个领域，形成 “临床问题 – 基础机制 – 技术落地” 的完整链条：

临床层面：麻醉科负责围手术期管理，老年病科主导 POD 诊断和神经心理测试，骨科提供手术患者队列；

基础层面：认知神经科学团队设计扫视任务（基于注意力、抑制功能、工作记忆的核心认知维度），解释扫视参数与 POD 的关联机制（如轴索损伤、认知功能提前受损）；

技术层面：通过眼动追踪设备（EM 2000 Series）和 MATLAB 编程实现参数量化，机器学习团队优化模型。

多学科协作不仅提升了研究的科学性，还确保了结果的 “临床相关性” 与 “机制合理性”，符合顶刊对 “深度研究” 的期待。

【Anesthesiology最新！】一眼看穿术后谵妄风险！做个 “眼动测试”，预测准确率超 89%｜北医三院顶刊新发现

五、领域贡献：丰富 POD 预测体系，深化对 POD 发病机制的理解

完善预测工具矩阵：既往 POD 预测多依赖临床风险评分（如年龄、基础疾病），而该研究补充了 “行为生物标志物” 维度，与临床评分、分子标志物形成互补，为构建 “多维度 POD 预测模型” 提供了基础；

深化机制认知：通过对比三类评估工具，证实 POD 的核心风险是 “认知 – 运动整合功能缺陷”（而非单纯的神经退行性标志物升高），提示扫视参数异常可能反映术前潜在的脑功能损伤（如血清 NfL 升高提示的轴索损伤），为 POD 的发病机制研究提供了新线索；

引领后续研究：研究明确了 5 项关键扫视参数（PS 任务的反应时间、误差、增益，AS/MGS 任务的峰值速度），为后续多中心验证、不同手术类型（如心脏手术、腹部手术）的拓展研究提供了明确靶点。

总结：顶刊的核心筛选逻辑

《Anesthesiology》作为麻醉学领域的旗舰期刊，优先发表 “解决临床关键痛点、方法学严谨、具有转化潜力” 的研究。

该研究恰好命中三点：

痛点：POD 缺乏可靠、非侵入性的术前预测工具；

方案：提出扫视任务这一可操作、无偏差的新方法；

证据：通过前瞻性队列 + 多模型验证，证实其预测准确性显著优于传统方法。

共同通讯作者介绍

韩永正

北医三院麻醉科

副主任医师、副教授、硕士生导师

主要研究方向：术后谵妄临床及机制研究、智能气管插管机器人系统研发

郭向阳

北医三院麻醉科主任

主任医师、教授、博士生导师、

博士后合作导师

主要研究方向：麻醉与脑功能、恶性高热基础与临床研究

2025 重磅研究：两种麻醉方式对老年髋部骨折患者长期认知及生活质量的影响

【儿童围术期麻醉管理专栏7】40 Hz光刺激对儿童七氟烷麻醉后苏醒期谵妄发生率的影响：一项随机临床试验

【超声专场】跟着王子学超声第三期：颈前部神经阻滞（一）

孜孜学堂课后笔记丨EF 39%的经皮肾镜的麻醉管理笔记

【教学专题】住院医师规范化培训教学活动– 临床小讲课指南

【疼痛专题】周围神经阻滞后反跳痛的研究进展

微精选

【Anesthesiology最新！】一眼看穿术后谵妄风险！做个 “眼动测试”，预测准确率超 89%｜北医三院顶刊新发现

最近文章