并发的神经退行性病变和血管性病理在临床环境中构成了诊断挑战,组织病理学仍然是痴呆类型诊断的最终手段。为应对这一临床挑战,我们引入了一个基于神经病理学、数据驱动、多标签的深度学习框架,使用来自国家阿兹海默病协调中心和阿兹海默病神经影像学倡议数据集的 423 名痴呆患者和 361 名对照参与者的生前 T1 加权 MRI 扫描,来识别和量化阿兹海默病(AD)、血管性痴呆(VD)和路易体痴呆(LBD)的体内生物标志物。基于性能最佳的深度学习模型,我们提取了可解释的热图以可视化疾病模式,并开发了新颖的病理学萎缩识别深度特征(Deep Signature of Pathology Atrophy REcognition, DeepSPARE) 指数,其中较高的 DeepSPARE 分数表示与该特定病理相关的脑部改变更多。
在痴呆患者中,临床诊断与神经病理学诊断存在显著差异:71% 的患者有一种以上的病理,但 67% 的患者在临床上仅被诊断为 AD。基于这些神经病理学诊断并利用交叉验证原则,该深度学习模型取得了最佳性能,对 AD、VD 和 LBD 的平衡准确率分别为 0.844、0.839 和 0.623,并被用于生成可解释的深度学习热图和 DeepSPARE 指数。
可解释的深度学习热图揭示了每种病理独特的神经影像学脑部改变模式:
(i) AD 热图突出了双侧海马区域;(ii) VD (血管性痴呆)热图强调了白质区域;以及 (iii) LBD(路易体痴呆) 热图暴露了枕叶的改变。通过使用线性混合效应模型检验 DeepSPARE 指数与认知测试、神经病理学和神经影像学测量指标的关联,对该指数进行了验证。DeepSPARE-AD 指数与简易精神状态检查、连线测试 B、记忆力、海马体积、Braak 分期、建立阿兹海默病登记册联盟(CERAD)评分和 Thal 分期相关 [经错误发现率(FDR)校正的 P < 0.05]。DeepSPARE-VD 指数与白质高信号体积和脑淀粉样血管病相关(FDR 校正的 P < 0.001),而 DeepSPARE-LBD 指数与路易体分期相关(FDR 校正的 P < 0.05)。
通过在一个样本外的阿兹海默病神经影像学倡议数据集中测试与认知、影像、血浆和脑脊液(CSF)测量指标的关联,这些发现得到了复制。在 AD 和轻度认知障碍伴 β-淀粉样蛋白阳性(AD/MCIΑβ+)组中,CSF 和血浆中在苏氨酸-181 位点磷酸化的 Tau 蛋白(pTau181)与 DeepSPARE-AD 显著相关(FDR 校正的 P < 0.001),而 CSF α-突触核蛋白仅与 DeepSPARE-LBD 相关(FDR 校正的 P = 0.036)。
总的来说,这些发现展示了我们创新的深度学习框架在检测与不同病理相关的生前神经影像学特征方面的优势。新开发的基于深度学习的 DeepSPARE 指数是精确、对病理敏感且为单值的无创神经影像学度量标准,它将传统的、广泛可用的体内 T1 成像与组织病理学联系起来。本文发表在BRAIN杂志。
引言
衰老与大脑中神经退行性病变和血管性病理的累积有关,这可能导致认知障碍和痴呆的发生。据估计,2024 年,年龄在 65 岁及以上的美国人中有 690 万人患有阿兹海默病(AD),这是痴呆最常见的原因,其次是血管性痴呆(VD)和路易体痴呆(LBD)。
临床痴呆诊断流程依赖于病史采集、体格检查、认知测试、血液检查和神经影像学生物标志物。神经影像学生物标志物因其可用的模态和序列范围而特别引人关注。MRI 扫描通常作为痴呆初步临床评估的一部分,为检测和量化不同的神经退行性病理提供了机会。MRI 最常用于检测和量化与 AD 相关的海马萎缩,此外还用于检测血管性脑损伤的不同内表型,如白质高信号(WMHs)、出血、梗塞和扩大的血管周围间隙。对于 LBD,MRI 扫描通常表现为内侧颞叶体积保留和枕叶萎缩。其他神经影像学生物标志物,如用 PET 扫描捕获的 β-淀粉样蛋白(Aβ)、tau 蛋白病理,以及通过种子扩增法检测的路易体病理的 α-突触核蛋白,也可以支持诊断。然而,这些通常不包括在初步评估中,因此临床可用性有限。因此,许多基于 MRI 的神经影像学研究被设计为使用机器学习模型来预测临床痴呆诊断。
然而,临床诊断在诊断准确性方面面临多重挑战,其中神经病理学被认为是诊断金标准,因为神经退行性疾病在组织病理学上的特征是错误折叠蛋白的沉积,这些蛋白具有不同的扩散模式和潜在的生物学机制。因此,使用临床诊断而非神经病理学诊断进行基于机器学习的生物标志物开发,可能导致错误估计、不准确的临界值和有限的准确性。
最近,深度学习的出现极大地改变了传统的机器学习方法。凭借其灵活的架构,深度学习模型仅需最少的预处理即可达到最先进的诊断准确率。然而,大多数基于深度学习的生物标志物开发仍然利用临床诊断,这可能限制了它们在预测组织病理学结果方面的准确性。此外,最近的研究表明,深度神经网络的决策是具有生物学依据的,这可以通过在 AD 分类任务中以海马为中心的可解释热图来证明,而传统机器学习模型则并非如此。以往的大多数研究都集中在二元分类任务上。这项工作可能是从单个多标签模型中为多种共存病理提取可解释热图的首批尝试之一。
以前,我们开发了一套源自机器学习的 SPARE(用于识别的空间萎缩模式)单值度量标准,用于捕捉与认知衰退相关的不同维度的脑部改变。例如,SPARE-AD 量化了 AD 样萎缩,而 SPARE-BA 则测量了与脑老化相关的萎缩。然而,这些指数依赖于传统的支持向量机(SVM)方法,并未考虑共存病理的可能性。 尸检研究表明,大多数痴呆病例是异质性的,具有多种共存病理。这凸显了需要更复杂的方法,利用体内成像来厘清痴呆的异质性。
在本研究中,我们开发了一个多标签深度学习网络,使用经神经病理学确认的诊断进行训练,以量化萎缩与三种最常见的共存病理的关系。我们使用了来自两个大型神经影像学数据库的组合数据集:阿兹海默病神经影像学倡议(ADNI)和国家阿兹海默病协调中心(NACC)。具体来说,我们的模型使用 423 名痴呆患者和 361 名对照参与者的生前 T1 加权 MRI 扫描进行训练,以检测 AD、VD 和 LBD 病理的存在。此外,我们通过训练多标签随机森林(RF)和线性 SVM 模型进行比较分析,以此将我们的深度学习模型与传统机器学习技术进行基准比较。然后,我们生成可解释的深度学习热图,以揭示模型检测到的脑部变化,并开发 DeepSPARE 指数,这是专门为检测与多种共存病理相关的脑部变化而设计的高级指数:AD (DeepSPARE-AD)、VD (DeepSPARE-VD) 和 LBD (DeepSPARE-LBD)。DeepSPARE 指数通过一系列认知、神经病理学和神经影像学测量指标得到进一步验证,并且我们的发现在一个样本外的 ADNI 参与者队列中得到了复制。
材料与方法
神经影像学数据和神经病理学诊断标准
机器学习模型使用由 NACC 和 ADNI 提供的 3D T1 加权 MRI 扫描进行训练。对于每位研究参与者,我们选择了最近一次的 MRI 扫描,以优化这些生前扫描与死亡时获得的神经病理学诊断之间的时间接近性。本研究共纳入 784 名参与者用于推导我们的机器学习模型:423 名经神经病理学认定的痴呆参与者和 361 名认知健康的对照者。这 423 名痴呆参与者根据以下标准被确定为患有 AD、VD 或 LBD 病理。如果参与者的 AD 神经病理学改变评分(一个综合了 Braak 分期 、Thal 分期和 CERAD 评分的复合分数)反映了中度或高度的 AD 神经病理学改变,则认为其患有 AD 病理。VD 病理的参与者是根据存在中度或重度的动脉硬化、脑淀粉样血管病或梗塞和出血来选择的。LBD 病理的参与者是根据边缘系统或新皮层中存在路易体病理来选择的。一个样本外的 ADNI 数据集被纳入研究以验证我们的发现,该数据集包括 1041 名被诊断为 AD 或轻度认知障碍(MCI)的参与者以及对照者。表 1 描述了他们的人口统计学特征。
表1 训练和验证数据集中按神经病理学诊断划分的参与者特征
AD = 阿兹海默病;ADNI = 阿兹海默病神经影像学倡议;LBD = 路易体痴呆;MCIΑβ+ = 轻度认知障碍伴 β-淀粉样蛋白阳性;MCIΑβ− = 轻度认知障碍伴 β-淀粉样蛋白阴性;MMSE = 简易精神状态检查;NACC = 国家阿兹海默病协调中心;SD = 标准差;VD = 血管性痴呆。
数据处理
使用一个全自动的图像分割流程——利用集成方法的多图谱区域分割流程,对所有 T1 加权脑部扫描进行场偏置校正和颅骨剥离。然后,使用 ANTs 库(v. 2.3.4)62 提供的非刚性 SyN 配准方法,将剥离颅骨后的扫描图配准到大小为 193 × 229 × 193 的 1 mm³ 分辨率的 2009c 版 ICBM152 MNI 图谱上。接着,使用 Nilearn Python 包的 resample_img 函数,将所有扫描图下采样至 65 × 77 × 65 的大小。引入这种下采样是为了减少计算时间,从而能够探索广泛的统计模型并进行扩展的交叉验证和复制实验。下采样也产生了更小的深度网络,这通常与较低的过拟合风险和更高的准确率相关。下采样后,使用最小-最大归一化方法对每个扫描图的强度进行归一化。
多标签分类模型
训练了三种机器学习模型,以从处理后的 3D T1 加权 MRI 扫描中预测神经病理学诊断:RF 模型、集成线性 SVM 模型和基于 3D ResNet 架构的深度神经网络。在多标签分类任务中,模型旨在预测多个非互斥的标签。这种框架允许每个输入同时与多个标签关联。在这里,模型必须为每个受试者预测三个标签,分别代表患 AD、VD 和 LBD 的可能性。这种方法允许模型独立地识别每种病症的存在与否,从而提供对受试者潜在病理的全面评估。详细解释可在补充材料“S2”中找到。采用了一种多标签非对称损失函数,以减轻多标签深度神经网络中类别不平衡的影响。这种非对称损失有两个优点:它减少了二元分类中不平衡类别的影响,并减少了易于分类的负样本的影响。将非对称损失与标准的二元交叉熵损失进行了比较。详细解释可在补充材料“S2”中找到。由于无法直接使用单个 SVM 进行多标签分类,因此训练了一个由三个线性 SVM 二元分类器组成的集成模型,每种病理一个,以完成每个多标签任务。
模型评估
分类性能经过 10 折交叉验证,并通过以下分类指标进行评估:多标签精确率、多标签召回率、多标签 F1 分数、每种痴呆病理的平衡准确率(BACC)、平均平衡准确率(BACCavg)以及每种痴呆病理的受试者工作特征(ROC)曲线下面积(AUC)。这些指标定义如下,更详细的解释可在补充材料“S3”中找到。这里,TP 和 TN 表示真阳性和真阴性值,FP 和 FN 表示假阳性和假阴性值;BACCAD、BACCVD 和 BACCLBD 分别表示 AD、VD 和 LBD 病理的平衡准确率。
对于这三种类型的多标签模型,保留在测试参数中获得最佳 F1 和 BACCavg 的模型,用于推导 ROC 曲线和进一步分析。使用 Delong 检验比较了这三个最佳模型的 AUC。
模型解释
首先,通过直接从最佳 RF、SVM 和深度神经网络的输出中推导病理概率图来解释机器学习模型,以评估它们区分痴呆病理的能力。为每个机器学习模型计算了一个轮廓分数,以量化其分离三种病理的能力。轮廓分数是衡量聚类可分性的标准度量,其中较高的轮廓分数表示给定聚类之间更好的可分性。为每个模型推导了三个病理概率图:每对病理一个图,报告一个 T1 MRI 扫描具有本研究中调查的病理的可能性。RF 模型和深度神经网络可以直接输出预测概率,而 SVM 模型产生的 SVM 分数则使用 scikit-learn 库 中实现的默认交叉验证逻辑回归方法转换为概率。
然后,推导出一组可解释的热图,以突出最佳 SVM 和最佳深度学习模型为支持其预测而考虑的大脑区域。SVM 热图由 SVM 系数生成,每个病理热图由相应的二元 SVM 模型生成。根据我们之前的研究,我们观察到集成梯度(IG)热图在捕捉与 AD 相关的脑部改变方面优于通过引导梯度加权类激活映射(grad-CAM)和逐层相关性传播 生成的热图,因此使用 IG 方法来推导群体和个体的可解释深度学习热图。群体深度学习热图是通过平均同一病理组内所有受试者的热图来创建的,从而得到特定于每种病理的稳健的脑部改变表征。直接从每个受试者推导的个体深度学习热图,可作为一种诊断指纹工具。使用均值为零、标准差为 0.1 的高斯噪声作为 IG(集成梯度) 的基线,这与数据增强过程中引入的噪声相似。所有图都通过应用大小为一个标准差体素的高斯核进行平滑。IG 的详细解释可在补充材料“S4”中找到。
DeepSPARE 指数与认知测试、神经病理学和神经影像学测量指标的评估
通过对性能最佳的深度学习模型的概率进行 logit 变换,生成了 DeepSPARE 指数。为每种病理生成了三个指数:DeepSPARE-AD、DeepSPARE-VD 和 DeepSPARE-LBD。使用了一系列测量指标来验证这些指数:三个认知分数、六个神经病理学测量指标和两个神经影像学测量指标。具体来说,研究了三个捕捉整体、执行和情景记忆认知表现的分数:简易精神状态检查(MMSE)、连线测试 B(Trail B)和韦克斯勒记忆量表-修订版的即时逻辑记忆子测试。检查了六个神经病理学测量指标:小动脉硬化、脑淀粉样血管病、Thal 分期、Braak 分期、CERAD评分和路易体分期。还评估了两个神经影像学测量指标:海马和白质高信号(WMH)的体积。这些影像学测量由 IDeA 实验室(加州大学戴维斯分校)为 NACC 数据集执行,遵循 ADNI 的方案。灰质分割基于期望最大化算法,WMH 基于液体衰减反转恢复(FLAIR)和 3D T1 MRI 计算。81 更多详情,请参考 NACC 和 ADNI 网站。
使用广义线性混合模型(GLMMs)检验了上述测量指标与 DeepSPARE 指数之间的关联。为连续结果指定了带有恒等链接函数的高斯条件分布,为二分结果指定了带有 logit 链接函数的二项条件分布。在这些模型中,感兴趣的相应认知、神经病理学或神经影像学测量指标是结果,而 DeepSPARE 指数是主要预测变量(表示为 z 分数,以方便比较它们的效果估计值)。模型对年龄和性别进行了校正,并包括了针对不同研究地点和不同 MRI 扫描仪的随机截距,假设采用部分交叉随机效应设计(更多详情,见补充材料“S5”)。考虑到不同 DeepSPARE 指数之间可能存在强相关性(由于共存病理的频繁发生),我们计算了它们在每个模型中各自的方差膨胀因子(VIFs),以评估共线性的程度。基于更保守的文献衍生阈值,VIF 值大于 5 被认为存在共线性问题。对所有模型计算了错误发现率(FDR)校正的 P 值 84 和系数的 95% 置信区间。FDR 校正的 P 值(PFDR)< 0.05 被认为是显著的。
使用样本外数据集对 DeepSPARE 指数进行评估
总共 1041 名独立于模型训练组的 ADNI 参与者被用于生成病理概率图和验证 DeepSPARE 指数。ADNI 参与者被分为三组:AD 和 MCI 伴 β-淀粉样蛋白阳性(AD/MCIΑβ+)组、MCI 伴 β-淀粉样蛋白阴性(MCIAβ−)组和对照组(CN)。
AD/MCIΑβ+ 组是根据阳性的淀粉样蛋白 PET 或 CSF 淀粉样蛋白 < 977 pg/ml 来选择的。MCIAβ− 组和 CN 组是根据阴性的淀粉样蛋白 PET 和 CSF 淀粉样蛋白 ≥ 977 pg/ml 来选择的。AD、MCIΑβ+、MCIAβ− 和 CN 组的总数分别为 314、420、161 和 146。
这 1041 名 ADNI 参与者的 DeepSPARE 指数通过以下过程生成:首先,将来自性能最佳的多标签深度学习模型的 10 个模型(在 10 折交叉验证期间开发)应用于每个处理后的 T1 加权 MRI 扫描。这导致每个受试者和每种病理有 10 个结果。然后,将这 10 个结果平均,并使用 sigmoid 变换转换为每种病理的概率。这些概率被用来创建病理概率图。最后,使用 logit 函数将概率转换为 DeepSPARE 指数。
对于这个样本外数据集,使用与前一节中描述的结构类似的 GLMMs,测试了 DeepSPARE 指数与认知分数、神经影像、血浆和 CSF 测量指标的关联。这些测量指标是 MMSE、Trail B、ADAS-Cog 13、海马和 WMH 的体积、SPARE-Tau(一个基于 tau PET 扫描的机器学习衍生指数)、血浆 Aβ42、血浆中在苏氨酸-181 位点磷酸化的 tau 蛋白(pTau181)、CSF pTau181/Aβ42 的比率、CSF pTau181以及通过 Amprion 临床实验室 提供的种子扩增法检测 CSF 中是否存在 α-突触核蛋白(更多详情,请参考 ADNI 网站)。
结果
临床与神经病理学诊断
图 1A 总结了我们机器学习模型训练集中包含的 423 名经神经病理学确认的痴呆参与者和 361 名对照参与者的诊断情况。痴呆和对照参与者的平均年龄分别为 76.8 岁和 75.6 岁。痴呆和对照参与者组中的女性/男性人数分别为 130/231 和 146/277。痴呆和对照参与者之间在年龄(P = 0.11)、性别(P = 0.9)或教育程度(P = 0.08)上没有显著差异。痴呆参与者所含 MRI 扫描的扫描日期与死亡日期之间的平均时间间隔为 4.9 年。423 名痴呆参与者中的大多数呈现多种共存病理:300 名参与者至少有两种不同的神经退行性病理(70.9%),其中包括 54 名参与者同时患有所有三种病理(12.8%)。只有 123 名参与者患有单一病理(29.1%):51 人患有 AD(12.19%),51 人患有 VD(12.1%),21 人患有 LBD(4.9%)。这三种病理形成了七个经神经病理学确认的诊断类别,并将它们与 NACC 和 ADNI 联合会发布的临床诊断进行了比较,如图 1B 所示。在 312 名患有 AD 病理的参与者中,242 人(77.6%)曾接受过 AD 的临床诊断,52 人(16.7%)曾接受过 MCI 的临床诊断,70 人(22.4%)曾接受过非 AD 的临床诊断。在 334 名患有 VD 病理的参与者中,共有 243 人(72.8%)曾被临床诊断为 AD,3 人(0.9%)曾被临床诊断为 VD。在 131 名患有 LBD 病理的参与者中,只有 23 人(17.6%)曾被临床诊断为 LBD,其余大多数人曾被诊断为 AD(75 人,57.3%)。这些计数表明,痴呆个体中病理存在相当大的重叠,并且临床诊断与神经病理学诊断之间存在显著差异。显示七个经神经病理学确认的组的人口统计学信息以及每个组的临床诊断的表格分别在补充表 1 和 2 中提供。用于获取机器学习模型训练和验证集中脑部扫描的 MR 扫描仪磁场强度、制造商、型号名称和临床地点位置分别在补充图 1 和 2 中报告。
图 1 痴呆参与者中病理的重叠以及神经病理学诊断与临床诊断之间的差异
(A)423 名经神经病理学确认的痴呆参与者中三种病理[阿兹海默(AD)、血管性痴呆(VD)和路易体痴呆(LBD)]之间的重叠。这 423 名痴呆和 361 名对照参与者(CN)被用于机器学习模型训练。
(B)对于 423 名经神经病理学确认的参与者,神经病理学确认的诊断与阿兹海默病神经影像学倡议/国家阿兹海默病协调中心联合会发布的临床诊断之间的比较。69 名参与者曾接受过轻度认知障碍(MCI)的临床诊断,14 名被诊断患有其他脑部疾病(其他)。
多标签分类性能
使用非对称损失函数和批大小为 8 训练的深度神经网络达到了总体最佳性能,与所有测试的 RF 和集成线性 SVM 模型相比,它获得了最佳的 F1、所有三种病理的最佳 BACC 以及最佳的 BACCavg。深度学习模型的训练在每个折叠中均在 3 小时内完成(使用补充材料“S2”中描述的图形处理单元)。
表 2 报告了本工作中比较的六个 RF、六个集成 SVM 和六个深度神经网络的 10 折交叉验证指标。非对称损失的训练参数是通过进行补充表 3 中报告的初步实验来选择的。最佳集成 SVM 是在 c 参数为 0.01 时获得的。该 SVM 模型在 AD 和 VD 分类中获得了比最佳深度神经网络更低的平衡准确率,但无法对 LBD 参与者进行分类。它还获得了比深度神经网络更好的精确率但更差的召回率,导致 F1 更低。最后,最佳 RF 是在组合 300 棵树时获得的,其平衡准确率最差,F1 更低,召回率也最差。选择了这三个模型来推导 ROC 曲线和 AUC,如图 2A 所示。为三种神经病理学诊断分别生成的 AUC 证实,SVM 和深度网络模型与三种诊断的相似 AUC 相关,而 RF 取得了最差的分类性能。更具体地说,根据 Delong 统计检验 67,RF 获得的 AD AUC 为 0.866,显著低于深度神经网络获得的 0.907(P < 0.001)。RF 为诊断 VD 测得的 AUC 为 0.859,也显著低于深度神经网络获得的 0.901(P = 0.001,Delong 检验)。对于 LBD,RF 获得了 0.728 的 AUC,但与深度神经网络的 0.719 相比,差异不显著(P = 0.87,Delong 检验)。
图2 三个测试模型的受试者工作特征曲线和病理概率图
(A)最佳随机森林、最佳集成线性支持向量机(SVM)和最佳深度神经网络对阿兹海默病(AD)、血管性痴呆(VD)和路易体病(LBD)的受试者工作特征(ROC)曲线及其曲线下面积(AUC)。

(B)为最佳 RF、集成 SVM 和深度神经网络获得的测试数据集的病理概率图。这些概率图的第一列估计了模型区分 AD 和 VD 的能力。第二列反映了 AD 和 LBD 之间的分离。最后一列指示了模型是否能够区分 VD 和 LBD。也报告了相应的轮廓分数
表 2 本工作中测试的所有病理分类模型的十折交叉验证精确率、召回率、F1、平衡准确率和曲线下面积
每个指标的最佳结果以粗体突出显示。AL = 非对称损失;AUC = 受试者工作特征曲线下面积;BACC = 平衡准确率;BCE = 二元交叉熵损失;RF = 随机森林;SVM = 支持向量机。
a 每种机器学习模型的三个最佳模型。
b 总体最佳模型。
病理概率图
直接由三种最佳机器学习模型生成的 AD、VD 和 LBD 概率被用来制作图 2B 中所示的病理概率图。与 SVM 模型(轮廓分数 = -0.162)和 RF 模型(轮廓分数 = -0.193)相比,深度学习模型测得的轮廓分数更大(0.209)(图 2B),表明深度学习模型对病理组的可分性更好。深度学习模型是唯一能够区分所有病理的多标签模型;它在 AD 和 VD 分类中表现良好,并且对 LBD 达到了 0.623 的 BACCLBD。SVM 模型能够区分 AD 和 VD,但在检测 LBD 方面有困难,其 BACCLBD 为 0.531。RF 模型未能区分不同的神经退行性病理,仅将研究参与者分类为患病或健康。
可解释的深度学习热图
图 3 展示了由最佳深度神经网络通过 IG 方法生成的群体深度学习热图,以及由最佳线性 SVM 模型生成的 SVM 系数图。深度学习热图反映了与每种病理类型相关的独特影像学模式,但 SVM 图并未区分这些病理。AD 深度学习热图指出了双侧海马区域的变化。VD 热图更侧重于白质区域。最后,为 LBD 推导的热图捕捉到了枕叶区域。补充图 3 展示了个体热图,表明尽管噪声水平较高,但在群体热图中观察到的关键特征在个体热图中仍然可见。
图 3 阿兹海默病、血管性痴呆和路易体病病理的可解释深度学习热图和支持向量机系数图。
可解释的深度学习热图反映了使用集成梯度方法从最佳深度神经网络中提取的脑部改变模式。支持向量机(SVM)系数图提供了由最佳线性 SVM 模型捕获的模式。所有值均在零和一之间归一化。
AD = 阿兹海默病;LBD = 路易体痴呆;VD = 血管性痴呆。
DeepSPARE 指数与认知测试、神经病理学和神经影像学测量指标的验证
DeepSPARE 指数与感兴趣的认知、神经病理学和神经影像学测量指标之间的关联呈现在图 4 中。所有观察到的关联都符合其预期方向(例如,较小的海马体积与较高的 DeepSPARE-AD 值相关)。P 值经过了对图 4 中报告的 11 个模型的 FDR 校正。VIF 值表明 DeepSPARE 指数之间的共线性程度相对较低(VIF < 3)。所有三个认知测试都与 DeepSPARE-AD 显著相关(所有 PFDR < 0.001)。DeepSPARE-VD 与 MMSE 和逻辑记忆测试相关(所有 PFDR < 0.05)。关于影像学测量,海马体积仅与 DeepSPARE-AD 相关(PFDR < 0.001),而 WMH 体积仅与 DeepSPARE-VD 相关(PFDR < 0.001)。Thal 分期、CERAD 评分和 Braak 分期都与 DeepSPARE-AD 相关(PFDR < 0.001、PFDR < 0.001 和 PFDR = 0.002)。脑淀粉样血管病仅与 DeepSPARE-VD 相关(PFDR < 0.001)。与小动脉硬化未观察到显著关联。DeepSPARE-LBD 与这些测量指标均无显著关联;然而,它与路易体分期相关(PFDR = 0.012)。
图 4 对于模型测试数据集,线性混合模型关于认知、影像和基于神经病理学的测量指标与 DeepSPARE 指数之间关联的结果。图中报告了可用样本数(n),以及效应估计值(β 系数)及其 95% 置信区间、经错误发现率校正的 P 值(PFDR)和方差膨胀因子(VIFs)。粗体 P 值表示统计学显著性(PFDR < 0.05)。
AD = 阿兹海默r病;LBD = 路易体痴呆;LOGIMEM = 韦克斯勒记忆量表-修订版的即时逻辑记忆子测试;SVM = 支持向量机;VD = 血管性痴呆;WMH = 白质高信号。
使用样本外数据集对 DeepSPARE 指数进行验证
在最后一组实验中,将最佳深度神经网络应用于一个样本外的 ADNI 验证数据集,以推导病理概率图(补充图 4)和 DeepSPARE 指数。与 MCIΑβ− 和 CN ADNI 组相比,该神经网络在 AD/MCIΑβ+ 组中预测的痴呆患病率显著更高(统计结果报告在补充材料“S7”中)。
图 5 和图 6 展示了在样本外的 ADNI 数据集中,DeepSPARE 指数与认知和神经影像学测量指标的关联。报告的 P 值经过了对图 5 和图 6 中报告的 21 个模型的 FDR 校正。所有显著(PFDR < 0.05)的关联都符合相应病理的预期方向。在 AD/MCIΑβ+ 组中观察到与大多数测量指标的显著关联,但在 MCIΑβ− 组中则没有。CN 组中的大多数结果不显著(PFDR > 0.05)(补充图 5)。
图 5 对于样本外的阿兹海默病神经影像学倡议验证数据集,线性混合模型关于认知和基于影像的测量指标与 DeepSPARE 指数之间关联的结果。
图中报告了可用样本数(n),以及效应估计值(β 系数)及其 95% 置信区间、经错误发现率校正的 P 值(PFDR)和方差膨胀因子(VIFs)。粗体 P 值表示统计学显著性(PFDR < 0.05)。AD = 阿兹海默病;LBD = 路易体痴呆;VD = 血管性痴呆;WMH = 白质高信号。
图 6 对于样本外的阿兹海默病神经影像学倡议验证数据集,线性混合模型关于生物流体测量指标与 DeepSPARE 指数之间关联的结果。图中报告了可用样本数(n),以及效应估计值(α-突触核蛋白为对数优势比,其他测量为 β 系数)及其 95% 置信区间、经错误发现率校正的 P 值(PFDR)和方差膨胀因子(VIFs)。粗体 P 值表示统计学显著性(PFDR < 0.05)。
在 AD/MCIΑβ+ 组中,所有认知分数都与 DeepSPARE-AD 和 VD 指数表现出显著关联。值得注意的是,对于 MMSE,与 DeepSPARE-AD 的关联 [估计值 = -1.261, (-1.602, -0.936)] 比与 VD 的关联 [估计值 = -0.573, (-0.903, -0.243)] 更强。同样,对于 ADAS-Cog 13,与 DeepSPARE-AD 的关联 [估计值 = 5.221, (4.258, 6.193)] 比与 VD 的关联 [估计值 = 1.873, (0.905, 2.843)] 更强。在 MCIΑβ− 组中未观察到显著关联。
海马体积与 DeepSPARE-AD 的关联 [估计值 = -0.537, (-0.652, -0.421)] 比与 VD 的关联 [估计值 = -0.293, (-0.411, -0.176)] 更强。在 AD/MCIΑβ+ 组中,WMH 体积与 DeepSPARE-VD 显著相关(PFDR < 0.001)。在 MCIΑβ− 组中,海马体积仅与 DeepSPARE-AD 相关,而 WMH 仅与 DeepSPARE-VD 相关。此外,在 AD/MCIΑβ+ 组中,SPARE-Tau 与 DeepSPARE-AD 相关(PFDR < 0.001)。在 MCIΑβ− 组的大多数参与者中缺少 SPARE-Tau 测量值;因此,未检验其与 DeepSPARE 指数的关联。
在 AD/MCIΑβ+ 组中,CSF α-突触核蛋白种子扩增法仅与 DeepSPARE-LBD 相关(PFDR = 0.036)。CSF pTau181/Aβ-42 比率和 CSF pTau181 仅与 DeepSPARE-AD 相关(所有 PFDR < 0.001)。在 MCIΑβ− 组中,未观察到 CSF 测量指标与DeepSPARE 指数之间的显著关联。
关于血浆测量,在 AD/MCIΑβ+ 组中,仅血浆 pTau181 与 DeepSPARE-AD 显著相关(PFDR < 0.001)。在 MCIΑβ− 组中,未观察到血浆测量指标与 DeepSPARE 指数之间的显著关联。
讨论
在本研究中,我们开发了一个先进的多标签深度学习框架,旨在使用生前 T1 加权 MRI 扫描来厘清三种最常见的共存病理(AD、VD 和 LBD)。从单个模型中生成了这些共存病理的可解释深度学习热图,突出了 AD 的海马改变、VD 的白质变化以及 LBD 的枕叶区域。源自我们框架的新颖神经影像学特征——DeepSPARE 指数,代表了每种共存病理的可能性,揭示了与病理特异性生物标志物和测量指标的显著关联。具体来说,DeepSPARE-AD 指数与 AD 的关键指标显著相关,包括海马体积、Braak 分期、CERAD 评分和 Thal 分期。DeepSPARE-VD 指数显示出与 WMH 和脑淀粉样血管病的显著关联。DeepSPARE-LBD 指数与路易体分期显著相关。DeepSPARE 指数的病理敏感性也在一个样本外数据集中得到了复制。该框架通过模型可解释热图和定量的 DeepSPARE 指数,实现了对多种共存病理之间复杂相互作用的更精确厘清,从而广泛扩展了先前基于机器学习的神经影像学特征,46-48 成为理解和检测痴呆异质性的先进工具。
临床与神经病理学诊断之间的显著差异
我们观察到发布的临床诊断与经神经病理学确认的诊断之间存在显著差异。具体来说,423 名痴呆参与者中有 300 人(71%)有一种以上的病理,而其中 283 人(67%)在临床上仅被诊断为 AD。这一观察结果与近期的临床研究 和尸检检查 一致,这些研究报告了 AD 与其他神经退行性疾病的频繁共存,并突出了在临床痴呆病例中区分主要病理的挑战(AD vs. VD 或 LBD)。
深度学习模型达到了最高的总体准确率
与 RF 和集成 SVM 模型相比,具有非对称损失函数的最佳深度神经网络达到了总体最佳性能,其对 AD、VD 和 LBD 的平衡准确率分别为 0.844、0.839 和 0.623。其他参数为精确率 0.701,召回率 0.793 和 F1 分数 0.744。尽管类别不平衡是多标签分类研究中最常见的局限性,但在本研究中,通过在训练我们的深度神经网络时探索使用非对称损失,部分缓解了这个问题。LBD 的平衡准确率可被认为是令人满意的,考虑到结构神经影像学可能对 LBD 病理表现出较不特征性的特征,该病理更多地与枕叶功能信号减少以及 PET 成像中后扣带回皮层代谢的相对保留相关。
作为比较,最佳集成 SVM 模型在 AD 和 VD 上获得了较低的平衡准确率,对 LBD 的准确率更低,F1 分数更低,平均平衡准确率也低于最佳深度学习模型。从 SVM 模型观察到的较高精确率和低得多的召回率表明,它对简单的阳性样本很有信心,但未能检测到困难的阳性样本,如 LBD,导致了更多的假阴性。具有非对称损失函数的深度学习精确率相对较低,而具有二元交叉熵损失函数的则不然,其原因可能源于非对称损失函数的概率转移机制,它忽略了简单的负样本,因此可能导致更多的假阳性。总体而言,基于两个综合指标(F1 和 BACCavg),深度学习模型取得了最佳性能。
如补充图 1 所示,用于训练模型的 MRI 扫描中约有一半是在 1.5 T 扫描仪上采集的,其余在 3 T 扫描仪上。包含不同场强的扫描仪使我们的样本量增加了一倍,旨在使我们的统计模型对扫描仪间的差异更具鲁棒性。一旦未来有来自不同扫描仪的数据可用,在扩展我们的方法时,扫描仪属性和扫描方案的影响将是一个需要探索的重要课题。
从机器学习模型输出推导的病理概率图证实,达到最佳分类性能的模型也是通过获得最高轮廓分数来最好地厘清三种神经退行性病理的模型。
可解释的深度学习热图揭示了病理特异性模式
来自最佳深度神经网络的群体深度学习热图所揭示的脑部改变证实,模型在分类三种病理时关注于不同的大脑区域,并且我们发现这些深度学习热图与先前的发现密切对应。具体来说,AD 深度学习热图准确地捕捉了双侧海马区域,这与众多先前的 AD 研究一致。此外,VD 深度学习热图突出了许多通常受 WMH 或其他血管内表型影响的白质区域。最后,LBD 深度学习热图聚焦于枕叶区域。这一结果与 LBD 与枕叶变化密切相关的事实一致。然而,先前研究 MRI 结构性萎缩在 LBD 中的研究结果相互矛盾,一些研究仅报告了边缘系统的萎缩。这些矛盾的发现可能源于 AD 共存病理的存在。
总体而言,深度学习热图表明,深度神经网络能够将三种经神经病理学确认的诊断与独特的脑部改变联系起来,而 SVM 模型则不然。SVM 系数图为所有三种诊断捕获了贯穿整个灰质的更广泛的变化,未能提供区分性信息。这一结果与我们之前的发现一致,展示了使用现代深度学习热图而非 SVM 系数捕捉痴呆模式的优势。
DeepSPARE 指数与病理特异性生物标志物和测量指标相关
我们源自深度学习的 DeepSPARE 指数对三种最常见的共存病理表现出多样化的敏感性。观察到 DeepSPARE-AD 与 MMSE、Trail B、记忆力、海马体积、Braak 分期、CERAD 评分和 Thal 分期存在显著关联。VD 与较高的白质疾病和血管性脑损伤患病率相关,我们的结果揭示了 DeepSPARE-VD 与脑淀粉样血管病和 WMH 的显著关联。路易体分期仅与 DeepSPARE-LBD 显著相关。这些结果表明,DeepSPARE 指数对已确立的 AD、VD 和 LBD 生物标志物和测量指标具有敏感性和特异性。
在 ADNI 数据集中的样本外验证进一步加强了我们发现的普适性和外部有效性
AD/MCIΑβ+ 组与测试的认知、影像、血浆和 CSF 测量指标表现出稳健且一致的关联。这些关联与在训练/测试数据中观察到的相似。具体来说,DeepSPARE-AD 与认知分数和海马体积相关。相比之下,DeepSPARE-VD 与 WMH 体积相关,证实了 DeepSPARE 在一个未见过的数据集中反映与 AD 和 VD 病理相关变化的能力。先前的研究已经证明了 CSF pTau181/Aβ-42 比率 和 pTau181 预测早期临床衰退和未来 AD 转换的能力。我们的发现揭示了一致的结果,即 DeepSPARE-AD 指数与 CSF pTau181/Aβ-42 比率和 pTau181 显著相关。此外,最近的研究表明,CSF α-突触核蛋白种子扩增法是突触核蛋白病的潜在早期生物标志物,可以高精度诊断帕金森病患者。遵循这些报告,我们观察到 CSF α-突触核蛋白种子扩增法仅与 DeepSPARE-LBD 存在显著关联。血浆生物标志物因其方便和微创性而特别引人关注。血浆 pTau181 已被提议为 AD 的潜在血浆生物标志物。相应地,我们观察到 DeepSPARE-AD 与血浆 pTau181 之间存在显著关联。
DeepSPARE 指数的临床相关性
无创的病理替代生物标志物可能在增进我们对神经退行性疾病异质性和管理的理解方面至关重要。在临床上,这些指数可以作为有价值的影像学标志物,特别是在非典型、复杂和并发的痴呆表现病例中。我们本研究一个引人注目的发现是,加深了对 WMH 在痴呆中作用的理解。我们之前在普通人群中的研究证明了 WMH 与 SPARE-AD 值之间存在强相关性,这一发现在多个队列中得到了复制。然而,鉴于这些训练集仅依赖于 AD 的临床诊断,并忽略了共存病理的可能性,先前的指数无法区分 AD 痴呆与 VD 痴呆。只有当我们开发了先进的深度学习框架后,这种厘清才成为可能,在该框架中,我们发现 WMH 在 VD 中具有更特定的作用,因为在对其他指数进行校正后,它们仅与 DeepSPARE-VD 相关。承认这些病理可能共存,DeepSPARE 指数可以为这些病理提供敏感和特异的标志物。
此外,从临床试验的角度来看,DeepSPARE 指数可以帮助识别具有亚临床神经病理的风险人群,从而能够在神经病理学变化与临床症状出现之间的延长潜伏期内进行诊断。我们之前的工作 模拟了在前驱期阿兹海默病临床试验中提高统计功效的效果。在未来的研究中,DeepSPARE 指数可能有助于识别高风险队列,并作为在开发和测试新的或再利用的疾病修饰治疗中监测神经病理学负担的工具。
优势与局限性
本研究建立在几个优势之上,例如使用经神经病理学确认的诊断而非临床诊断,采用多标签深度学习网络以最少的预处理从生前 3D T1 加权 MRI 扫描中诊断共存病理,以及从单个模型中推导出可解释的深度学习热图以可视化三种最常见共存病理的脑部改变模式。结合两个大型神经影像学数据集来建立和验证统计模型也是本研究的一个优势。此外,引入新的源自深度学习的 DeepSPARE 指数是另一个显著的优势。我们已用广泛的临床、影像和生物流体生物标志物及测量指标对 DeepSPARE 指数进行了广泛验证,证明了它们能够独立反映 AD、VD 和 LBD 病理,并可能作为无创的病理生物标志物。这些基于 T1 加权图像的指数,可能在临床和研究环境中都具有广泛的适用性,因为 T1 序列已经是大多数临床和研究 MRI 方案的一部分。
本研究的主要局限性在于神经病理学亚组之间的数据不平衡,AD 和 VD 患者的数量明显多于其他亚组。这种差异可能导致模型对这两种病理的检测更优。我们目前的工作展示了从单个 T1 MR 扫描中以高灵敏度和精确度区分 AD、VD 和 LBD 的能力;然而,其他病理,如边缘系统为主的年龄相关 TDP-43 脑病和额颞叶痴呆,因样本量有限而代表性不足。同时,我们正在积极努力扩大我们的训练样本,并建立更广泛的、整合了神经影像学与尸检评估的数据库。此外,在 MCIΑβ− 和 CN 组中,tau PET 数据集有限,这使得为这些人群计算 SPARE-Tau 指数具有挑战性。另外,整合其他成像模态本可以显著提高模型准确性,因为 PET 和 FLAIR 扫描分别为 LBD 和 VD 提供了信息更丰富的神经影像学特征。总体而言,将需要额外的数据才能达到在常规临床实践中使用的足够分类准确率,并将模型扩展到其他相关痴呆,如边缘系统为主的年龄相关 TDP-43 脑病和额颞叶痴呆。
结论
本研究展示了先进深度学习模型在检测三种最常见的痴呆共存病理方面的益处,揭示了特定于每种病理的脑部改变的神经影像学模式,并开发了创新的源自深度学习的 DeepSPARE 指数。更具体地说,与其它机器学习模型相比,深度学习模型在识别经神经病理学确认的痴呆诊断方面达到了最高的总体准确率。可解释的深度学习热图揭示了 AD 在海马、VD 在白质和 LBD 在枕叶区域的独特的结构神经影像学脑部改变模式,而传统机器学习方法则不然。最后,DeepSPARE 指数在一系列认知测试、神经病理学、影像、血浆和 CSF 生物标志物及测量指标中,展示了有效、一致和稳健的病理特异性关联。它们也已通过一个样本外数据集得到验证和复制。在临床上,DeepSPARE 指数有望成为无创的诊断工具,提供了区分共存的神经退行性病理和在症状显现前识别风险人群的能力。此外,与当前的临床诊断标准相比,这些指数可能提高诊断准确性,从而为特定病理提供治疗策略。