阿尔茨海默病(AD)日益成为全球性的健康问题,凸显了早期检测和干预策略的迫切需求。本综述旨在全面分析机器学习(ML)和先进影像技术在AD早期识别中的关键作用。本研究深入探讨了广泛的方法论,涵盖了对AD检测至关重要的视觉生物标志物、数据集、影像模态和评估指标。调查范围包括多样的ML技术,从预处理步骤开始,延伸到各种数据类型、特征提取模型以及传统和深度学习算法。本综述强调了卷积神经网络、自动编码器和迁移学习的重要性,并评估了它们在AD诊断中的效能。研究结果强调了AD检测领域内错综复杂的挑战和机遇。值得注意的是,ML和影像方法的整合在区分AD模式与健康大脑状态方面取得了有希望的结果。当面对多样化的数据集时,稳健的模型和算法展现出了显著的准确性、灵敏度和特异性,从而为AD的早期识别铺平了道路。总之,本综述倡导ML和先进影像技术在革新AD诊断中的关键作用。这些方法的融合在揭示AD的萌芽阶段方面具有巨大潜力,有助于及时的治疗干预和个性化的患者护理。最终,这种生物医学研究的综合代表着在解决阿尔茨海默病这一紧迫的全球性问题上的一次变革性飞跃。本文发表在Archives of Computational Methods in Engineering杂志。
1 引言
阿尔茨海默病(AD)是痴呆症最常见的形式,其特征是认知功能逐渐下降、记忆丧失和语言障碍。其患病率随年龄增长而增加,影响着约10.7%的65岁及以上人群。AD的影响不仅限于患者,还延伸到他们的照护者、家庭和整个社会。尽管其社会负担沉重,但对痴呆症的认识和理解仍然不足,导致了污名化和诊断上的挑战。
该病通常呈亚急性病程,从轻度认知障碍(MCI)发展到完全认知障碍、身体残疾,在某些情况下还会因不动导致死亡(图1)。早期准确识别AD和MCI对于有效干预至关重要,因为在MCI阶段的治疗可以减缓或阻止疾病进展。然而,传统的诊断方法严重依赖于临床专业知识,这促使了对计算机辅助诊断的需求。
机器学习,特别是人工智能(AI),在AD研究中显示出巨大潜力。研究可以分为传统机器学习和深度学习方法。这些方法利用各种生物标志物,包括遗传、生物和神经影像数据,其中磁共振成像(MRI)在AD的早期检测和分类中扮演着重要角色。
MRI在提供大脑结构的高分辨率图像方面至关重要,使研究人员能够识别大脑萎缩,尤其是在海马体,并预测MCI患者发展为AD的可能性。公共数据库促进了基于MRI的生物标志物研究。正电子发射断层扫描(PET)成像与MRI相结合,无需放射性同位素即可提供有价值的3D结构信息。这两种模态都是无创的,有助于AD的诊断。
用于AD评估的常用医学测试包括简易精神状态检查(MMSE)和临床痴呆评定量表(CDR)。然而,由于生物标志物有限,使用这些结果作为AD的“金标准”标签可能存在问题。
AD研究包括单模态和多模态研究,其中多模态方法提供互补信息。常用的模态包括MRI、FDG-PET、脑脊液(CSF)、MMSE和阿尔茨海默病评估量表-认知分量表(ADAS-Cog)。
基于计算机视觉的AD检测面临的挑战来自于有限且含噪声的医学图像数据集、图像质量的变化以及医学图像的复杂性。公共数据库在基于AI的AD研究中发挥了重要作用。
图1 A) 正常大脑(左)和阿尔茨海默病大脑(右)。B) 随着阿尔茨海默病从海马区(位于大脑颞叶深处)发展,萎缩(细胞死亡)变得更加明显并影响整个大脑。
本研究全面分析了用于阿尔茨海默病诊断的数据集、预处理技术和机器学习模型。在这项工作中,我们评估了近期的研究,比较了各种方法,突出了当前趋势,并为通过MRI图像诊断阿尔茨海默病提供了路线图。重点放在了使用广泛可用技术的常被引用的研究上,例如支持向量机(SVM)、卷积神经网络(CNN)、自动编码器和迁移学习。我们选择了相关的文献,特别是最近发表的作品,以纳入该领域的最新进展。此外,搜索策略中还包括了对AD相关人工智能研究至关重要的、被广泛使用的公共开放数据库。这些数据库通过为科学界提供宝贵的数据集和资源,在促进研究工作中发挥了关键作用。
本综述分为四个部分:引言、材料、方法和挑战/讨论。引言部分提供了关于阿尔茨海默病(AD)的背景信息,材料部分讨论了用于AD检测的常用数据集和视觉生物标志物,方法部分涵盖了搜索策略和预处理技术,包括传统和深度学习方法,最后,挑战和讨论部分探讨了当前的问题并提供了模型设计建议。
2 材料
2.1 视觉生物标志物
阿尔茨海默病是一种影响记忆和认知的神经退行性疾病,其特征为脑萎缩、突触功能障碍和神经元丢失。研究人员利用MRI成像研究脑萎缩,主要关注海马体、内嗅皮层(ERC)和大脑皮层等关键生物标志物区域:
-
皮层厚度: MRI测量皮层厚度的变化,有助于阿尔茨海默病的诊断。自动化技术可提供精确的皮层厚度估计。该方法揭示了大脑皮层萎缩的进展,对理解该病的发展至关重要。(图2A)
-
海马体体积萎缩: 海马体是阿尔茨海默病的核心生物标志物。MRI有助于检测与记忆障碍相关的体积减小,从而区分疾病的不同阶段。监测海马体丢失有助于评估干预措施的有效性并诊断阿尔茨海默病。(图2B)
-
内嗅皮层(ERC): ERC的体积丢失与海马体的变化平行,并且是最早受影响的区域之一。MRI揭示了其结构性萎缩,这种萎缩在阿尔茨海默病的进展中会延伸到其他脑区。在轻度认知障碍中,ERC和海马体的体积显著减小。(图2C)
-
脑室扩大: 脑室扩大是阿尔茨海默病的短期标志。MRI显示,MCI或AD患者的脑室扩张。在晚期AD阶段,脑室扩大更为明显,同时伴有海马体和内嗅皮层等关键脑区的萎缩。(图2D)
-
脑脊液(CSF): CSF含有与阿尔茨海默病相关的生物标志物,包括tau蛋白、磷酸化tau蛋白和Aβ42。MRI分析将CSF的分布作为一种视觉生物标志物进行检查。在阿尔茨海默病中,神经元变性导致脑室扩大,使得CSF能够填充受损区域,特别是在海马体和脑室周围。(图2E)
图2 阿尔茨海默病生物标志物
A) 通过MRI成像测量皮层厚度的示意图。
B) 两名受试者海马区萎缩的比较(左)AD – (右)NC。
C) MP-RAGE图像中内嗅皮层(ERC)(右)和海马(左)体积的测量。(a) 正常认知(NC);(b) 轻度认知障碍(MCI);(c) 阿尔茨海默病(AD)。
D) 随着AD大脑阶段的进展,脑室严重扩大。
E) 脑微出血在正常认知(左)和阿尔茨海默病大脑(右)之间表现出不同的分布。
2.2 数据集
近年来,许多研究中心收集了大量的医学和图像数据,并将其公开发布。这些数据集是研究人员开发和评估AD人工智能模型的宝贵资源。数据集包含生物标志物信息,如神经影像模态、遗传和血液数据,以及临床和认知评估。ADNI(阿尔茨海默病神经影像学倡议)数据集是一个公私合作项目,已经历了三个阶段,涉及美国和加拿大的多个中心。AIBL(澳大利亚影像、生物标志物和生活方式老龄化旗舰研究)数据集是一个澳大利亚项目,旨在识别阿尔茨海默病的生物标志物和认知特征,以开发新的预防性治疗和干预措施。OASIS(开放获取影像研究系列)数据集是一个免费提供的项目,提供认知正常受试者和阿尔茨海默病患者的MRI脑部图像和临床评估。MIRIAD(阿尔茨海默病微小间隔共振成像)数据集包括轻中度阿尔茨海默病患者和健康对照者的T1容积MRI扫描,这些数据是纵向收集的。3C(三城市队列)研究是一项纵向多中心基于人群的队列研究,旨在识别痴呆症的危险因素。研究人员可以利用这些数据集来开发和评估用于早期检测和监测阿尔茨海默病的人工智能模型,这有助于改善诊断、治疗和患者护理。
2.3 影像技术
影像技术在诊断阿尔茨海默病(AD)这种神经退行性疾病中扮演着关键角色。磁共振成像(MRI)提供高分辨率的结构图像,可以检测到脑萎缩,这是AD的一个常见症状。使用诸如氟脱氧葡萄糖(FDG)或β-淀粉样蛋白配体等放射性示踪剂的正电子发射断层扫描(PET)可以分别可视化大脑中的代谢和淀粉样蛋白斑块变化。功能性MRI(fMRI)追踪大脑活动,有助于AD的早期检测。扩散张量成像(DTI)评估白质的完整性,而CT扫描则揭示结构异常。结合这些技术可以提高AD诊断的准确性,从而实现及时的干预(这些技术的年代演变见图3)。
图3 阿尔茨海默病诊断中脑影像技术的年代演变
3 方法
3.1 图像处理
在使用机器学习模型进行MRI图像分析时,预处理、分割和数据增强是相互关联的步骤,在整个工作流程中起着至关重要的作用。预处理为分析准备MRI数据,分割识别图像中感兴趣的特定区域,数据增强则扩充训练数据集,以提高应用于MRI图像分析的机器学习模型的性能和鲁棒性。这些步骤相互关联,共同促成了整个分析流程的成功。
3.1.1 预处理
分类模型的有效性在很大程度上取决于训练集的大小。由于AD和MCI受试者图像扫描的可用性有限,因此需要进行预处理。技术包括配准、归一化、平滑、分割、去颅骨、噪声去除、时间滤波和协变量去除。各种MRI软件包,如FreeSurfer、CAT12、FSL、SPM和ANTS,都提供了预处理算法。本综述重点介绍强度归一化、配准、去颅骨、组织分割和类别平衡技术(图4)。
强度归一化
在MRI图像采集过程中,不同扫描仪之间的强度标度变化给统一分析带来了挑战。这种变异性可能会妨碍图像处理和机器学习算法。强度归一化在标准化整个数据库的强度、确保尺度一致方面至关重要。已经提出了各种算法,如基于图像直方图的Nyul和Udupa方法,来实现这一目标。其目的是在所有图像中获得统一的强度水平,以帮助组织识别,促进分割、检测、分类和分析。
配准
图像配准在医学图像分析中起着至关重要的作用,尤其是在MRI分类模型中。它涉及将一个数据集与另一个数据集进行几何对齐,这是比较不同受试者、成像模态或时间的数据集的前提。在MRI分类中,对齐不同模态的图像(如T1加权和T2加权MR图像)至关重要,通过利用互补信息来提高分类准确性。数据融合是MRI分类模型中图像配准的一个关键目标。通过对齐多个图像,它创建了具有增强特征的复合图像,改善了对比度和空间分辨率。这有助于区分在原始图像中以前无法区分的组织。图像配准还促进了自动图像分割和标记。配准算法可以将大脑分割成区域,并按组织类型或解剖结构进行标记。与手动方法相比,这种自动化节省了时间并减少了错误。
去颅骨
去颅骨在神经影像学中至关重要,它将大脑与非大脑组织分开,以提高分析准确性。方法包括手动分割、阈值法、形态学法、区域生长法和机器学习法。手动方法精确但耗时且存在变异性。阈值法依赖于强度阈值,由于MRI的变异性而具有挑战性。形态学法使用腐蚀和膨胀。区域生长法假设强度值均匀。最近,基于深度学习的方法,如CNN,越来越受欢迎,它们以高准确度和减少的变异性自动进行去颅骨。然而,它们需要大量的标注数据,并且对成像协议的变化和噪声水平很敏感。在神经影像学中,去颅骨至关重要,而机器学习,尤其是深度学习,有望增强这一关键步骤。
图4 MRI图像中阿尔茨海默病检测流程图:预处理、分割和数据增强
3.1.2 组织分割
组织分割是MRI分析中的一个关键步骤,它将图像划分为不同的组织类型,如灰质、白质和脑脊液。算法根据强度、空间位置和先验知识为每个体素确定组织类别。存在多种方法,包括监督式(使用带标签的训练数据),如模糊聚类、人工神经网络和支持向量机,以及非监督式,如k-均值聚类、期望最大化和水平集方法。分割的准确性取决于图像质量、噪声、强度不均匀性和组织复杂性。提高准确性的技术包括结合空间信息、多图谱融合和基于图谱的组织特征知识。然而,分割仍然具有挑战性,特别是在肿瘤或病变等病理条件下,这些条件会改变组织特征并使分割复杂化(图4)。
3.1.3 数据增强
数据增强是MRI图像分析中的一项重要技术,通过生成现有图像的各种变体来人为增加数据集的大小。该过程涉及对原始MRI图像应用旋转、翻转、缩放和扭曲等变换。增强后的数据集可以改善机器学习模型的训练,提高其准确性和泛化能力。这种做法在MRI分析中越来越受欢迎,因为它减轻了收集数据所需的高昂成本和时间。然而,仔细选择增强方法和参数至关重要,以防止向数据中引入偏差或伪影(图4)。
3.2 输入数据类型
MRI分类器利用各种类型的输入数据进行分类任务。MRI模型中常见的输入数据类型包括:
-
全脑3D: CNN模型可以处理通过不同MRI模态(例如,T1加权、T2加权、FLAIR图像)获得的整个3D脑容量。这使得能够为分类提取特征。
-
2D切片: 或者,CNN模型可以处理MRI图像的2D切片,这适用于特定的感兴趣区域(ROI)或当处理完整的3D体积计算成本过高时。
-
基于ROI: 模型可以使用裁剪的图像,专注于与分类任务相关的特定大脑区域(例如,海马体、杏仁核)。
-
多模态: CNN模型可以接受多种MRI图像类型(例如,T1加权、T2加权、扩散加权),以通过利用互补信息来增强性能。
-
时间序列: 功能性MRI(fMRI)分析可能涉及时间序列图像数据。CNN模型从这些图像中提取时间特征进行分类。
-
多尺度: CNN模型可以通过调整大小并分别处理来处理多种尺度的MRI图像。来自每个尺度的特征被组合起来做出分类决策,从而增强性能,但需要额外的计算资源和时间。
3.3 特征提取模型
有几种特征提取模型可用于MRI,但一些最常用的是:
-
VGG16: 这是一个16层的深度卷积神经网络模型,最初是为计算机视觉中的图像分类而开发的。它通常用作MRI图像分析任务的特征提取器。
-
ResNet: 这是另一个在计算机视觉任务中广泛使用的深度卷积神经网络模型。它已被证明在从MRI图像中提取特征用于各种应用方面是有效的。
-
Inception: 这是一个深度卷积神经网络模型家族,其设计旨在比其他模型更具计算效率。Inception模型已被证明在从MRI图像中提取特征用于各种任务方面是有效的。

-
DenseNet: 这是一个深度卷积神经网络模型,旨在解决深度学习中的梯度消失问题。DenseNet已被证明在从MRI图像中提取特征用于各种应用方面是有效的。
-
AlexNet: 这是一个8层的深度卷积神经网络模型,是在ImageNet数据集上实现图像分类高性能的首批模型之一。它也已在各种MRI图像分析任务中用作特征提取器。
-
U-Net: 这是一个专门为医学图像分割(包括MRI图像分割)设计的卷积神经网络模型。其收缩和扩展路径分别能够捕捉上下文和实现精确定位。
-
MobileNet: 这个深度卷积神经网络模型家族设计为轻量级和计算高效,使其适合在移动设备上部署。它已在各种MRI图像分析任务中用作特征提取器。
-
SqueezeNet: 这个深度卷积神经网络模型设计为轻量级和计算高效,模型尺寸小,可在移动和嵌入式设备上实现快速推理。它也已在各种MRI图像分析任务中用作特征提取器。
-
V-Net: 这个卷积神经网络模型专门为3D医学图像分割(包括MRI图像分割)而设计。它使用一个3D卷积网络,可以直接从MRI数据中学习3D特征。
-
GoogLeNet: 这是一个22层的深度卷积神经网络模型,设计为计算高效并在ImageNet数据集上实现高性能。它已在各种MRI图像分析任务中用作特征提取器。
3.4 传统机器学习算法
在阿尔茨海默病(AD)的传统检测方法中,出现了一些值得注意的研究。Alam等人介绍了一种创新的AD检测方法,使用了双树复小波变换(DTCWT)、从横断面MRI中提取的主成分系数、线性判别分析和孪生支持向量机(TSVM)。Khan等人则采用了TSVM、最小二乘TSVM(LSTSVM)和基于能量的鲁棒LSTSVM来评估基于特征的AD诊断准确性。
Yuan等人采取了一种独特的方法,结合了皮层和遗传特征,包括皮层厚度(CT)、灰质体积(GMV)、局部脑回指数(LGI)、皮层表面积(CSA)和ApoE等位基因。这些属性通过统计方法(ANOVA、Kruskal-Wallis、ReliefF)进行优化,使用决策树(DT)和支持向量机(SVM)达到了92%的准确率。
在另一项研究中,Singh等人开发了一种基于核SVM的技术,用于MR脑图像的检测和分割,该技术结合了离散小波变换(DWT)进行特征提取,并使用独立成分分析(ICA)来提高分割准确性。
然而,必须承认传统机器学习算法固有的局限性。这些方法通常依赖于手工制作的特征,这可能非常耗时,并且可能无法捕捉到所有相关信息。此外,它们容易出现过拟合,即模型在训练数据上表现出色,但在处理未见过的数据时表现不佳,这可能限制了它们在复杂医学影像任务中的适用性(表1)。
表1 使用传统机器学习模型的研究工作信息列表
3.5 卷积神经网络算法
在阿尔茨海默病(AD)诊断领域,已经提出了各种先进的机器学习和深度学习技术来提高准确性和可解释性(表2)。Pei等人引入了“PKG-Net”,这是一种分层的伪3D卷积神经网络,它利用核注意力机制和全局上下文块将MRI图像转换为更紧凑的高级特征。该方法在准确性和效率方面优于现有方法,但缺乏对多模态数据和临床因素的探索,其泛化能力有待提高。
可解释人工智能(XAI)在医疗保健应用中起着关键作用。Yu等人设计了一个名为MAXNet的可解释框架用于AD诊断,其中包含了精确的热图和预测推理。尽管实现了准确的预测,但它没有考虑真实标注和领域知识。
EL-Geneedy等人开发了一个使用浅层卷积神经网络(CNN)的深度学习流程用于AD诊断,表现出高准确性。然而,其对纵向数据的适用性和临床效用有限。
Kong等人提出了一种结合磁共振图像(MRI)和正电子发射断层扫描(PET)图像的图像融合方法,实现了更高的准确性,但灵敏度和特异性并非始终很高。Qin等人提出了一种带有混合注意力机制的3D残差U-Net模型用于早期AD诊断,提供了透明度和可解释性。然而,需要进一步研究来增强可解释性技术。
在Subramanyam Rallabandi和Seetharaman的研究中,一个Inception-ResNet包装模型使用MRI和PET扫描来区分健康对照组、轻度认知障碍和AD,但纵向预测仍然具有挑战性。
Sharma等人使用带有VGG16的深度学习算法进行早期AD诊断,而De Silva和Kunz (2023)则采用了一个具有高MCC和AUC的CNN,但这两项研究都需要进一步的外部验证。
Liu等人引入了一个带有多种注意力机制的深度CNN用于AD诊断,获得了卓越的准确性、灵敏度和特异性。然而,该研究的局限性包括数据集小和缺乏临床试验。
Biswas等人提出了一种增强型DCNN模型用于AD诊断,但需要进一步的独立数据集验证并解决潜在的数据集偏差问题。
Faisal和Kwon提出使用3D-CNN和SVM进行自动AD和MCI检测,并建议通过预处理图像和纳入患者病史数据来改进。
Rashid等人引入了“Biceph-net”,这是一种使用2D MRI扫描进行AD诊断的高效框架,强调了计算效率。它需要在真实的临床环境中进行评估。
Khan等人提出了一个用于AD诊断的集成模型,实现了高准确性和效率,但需要优化。
Ismail等人提出了一种带有3D CNN的多模态图像融合方法,其性能优于基线模型,但需要外部验证。
Hazarika等人设计了一个混合DNN模型用于AD分类,结合了LeNet和AlexNet以提高效率,取得了有希望的结果。
Eroglu等人提出了一种基于mRMR的混合CNN,实现了惊人的99.1%的准确率。
Lanjewar等人利用CNN-KNN进行AD检测,并使用ROC、K折交叉验证、MCC和CKC指标评估性能。
Li等人引入了一种级联结构CNN-LSTM,将特征提取和分类与知识蒸馏相结合。
Liu等人开发了一个3D CNN,使用结构性MRI来区分AD、MCI和正常个体,显示出早期检测的潜力。
Balaji等人采用了一种结合CNN和LSTM的混合方法进行早期AD预测,利用了降噪和图像分割。
Cai等人提出了PMDA用于MRI数据的域自适应,提供了特征提取、原型学习和对抗性自适应,以辅助AD诊断。
Hajamohideen等人引入了带有三元组损失的SCNN进行AD分类,在ADNI和OASIS数据集上实现了高准确率。
这些研究展示了使用先进机器学习和深度学习技术在AD诊断中的多样化方法和成就,同时每种方法都有其局限性和未来研究与发展的领域。
表2 使用卷积机器学习模型的研究工作信息列表
3.6 自动编码器
在Ansingkar等人的研究中,介绍了一个利用混合均衡优化器和胶囊自动编码器的阿尔茨海默病检测框架。图像预处理采用了NLSMJ滤波,而自适应模糊原子搜索优化则用于提取GM、WM和CSF区域。自动编码器架构包括一个用于降维和特征提取的编码器,以及一个用于从编码中重建数据的解码器。其局限性包括仅进行单阶段的阿尔茨海默病分类,且预测效果评估有限。未来的研究可能会探索多阶段分类和深度学习技术以提高准确性。Menagadevi等人使用多尺度池化残差自动编码器和支持向量机进行阿尔茨海默病检测,在Kaggle和ADNI数据集上分别达到了令人印象深刻的99.77%和98.21%的准确率(表3)。
表3 使用自动编码器模型的研究工作信息列表
3.7 迁移学习
迁移学习是一种机器学习技术,它将预训练模型重新用于新任务。它利用现有知识,例如从一个领域学到的特征,来提高相关任务的性能,这在数据有限的情况下尤其有益。
Mohi ud din dar等人专注于通过深度学习CNN架构进行阿尔茨海默病的检测。他们利用了MobileNet模型,凭借其深度可分离卷积来实现轻量级的神经网络。他们采用了迁移学习,使用了预训练的健康数据分类模型,特别是MobileNet,并通过多样的性能指标对模型进行了评估。
Khan等人采用了组织分割技术,从ADNI数据库的MRI扫描中提取灰质。他们对一个预训练的VGG架构进行了微调,在冻结ImageNet特征的同时增加了一个层,以实现高效的迁移学习和新特征的学习。
表4 使用卷积机器学习模型的研究工作信息列表
Ashtari-Majlan等人介绍了一种使用MRI图像对进展性和稳定性MCI患者进行分类的方法。他们的方法包括使用多元T2 Hotelling检验进行数据驱动的标志点识别,以及一个采用迁移学习在ADNI-1数据上进行训练的多流深度CNN。
Baghdadi等人开发了一个用于早期阿尔茨海默病诊断的深度网络模型。他们的框架结合了CNN、迁移学习和大猩猩种群优化器(编者注:GTO,是一种新型的群体智能优化算法(metaheuristic algorithm),灵感来源于大猩猩的社会行为与群体协作机制。它主要用于解决复杂的数学优化问题、特征选择、参数调优等任务,类似于遗传算法(GA)、粒子群算法(PSO)、灰狼优化器(GWO)等)。使用ADNI数据集,他们利用MobileNet和Xception模型实现了高准确率,同时减少了偏差和预处理的可变性(表4)。
4 挑战与讨论
4.1 类别不平衡
类别不平衡在阿尔茨海默病(AD)预测中构成了一个重大挑战。AD数据集通常表现出类别分布不均,AD患者样本少于健康对照组或轻度认知障碍病例。这种不平衡可能导致具有严重临床后果的错误分类。
为了减轻类别不平衡,已经开发了各种技术。重采样是一种常用方法,通过过采样或欠采样来平衡类别大小。像合成少数类过采样技术(SMOTE)和自适应合成采样(ADASYN)这样的过采样技术可以创建合成的少数类样本,从而保留有价值的信息。
成本敏感学习为不同类别分配不同的错误分类成本。该策略通过更严厉地惩罚将AD患者错误分类为健康对照组来优先考虑AD患者的准确分类。
集成方法,包括装袋(bagging)和提升(boosting),也解决了类别不平衡问题。装袋法结合了在不同数据子集上训练的多个分类器的预测,而提升法则迭代地重新加权被错误分类的样本,赋予它们更大的重要性。
解决类别不平衡在AD预测中至关重要。重采样、成本敏感学习和集成方法等技术有助于平衡类别大小,提高预测准确性。这些策略减轻了AD预测中的偏差,从而改善了临床诊断和患者的治疗结果。
4.2 数据泄露
数据泄露是阿尔茨海默病预测中的一个关键问题,因为它可能扭曲模型性能并破坏结果的准确性。当测试集的信息无意或有意地被纳入训练集时,就会发生这种情况,从而使模型评估产生偏差。常见的数据泄露来源包括年龄和性别等人口统计学因素,以及简易精神状态检查(MMSE)分数或脑脊液(CSF)生物标志物等临床数据。
为了防止数据泄露,已经提出了各种技术。交叉验证是一种有效的方法,它将数据集划分为用于训练和测试的子集,确保模型独立于测试集。特征选择算法,如Relief算法,有助于识别基本特征,同时排除不相关的特征以减轻泄露。匿名化技术,即删除或掩盖可识别的患者数据,也能有效防止泄露。
数据泄露在阿尔茨海默病预测中构成了一个重大挑战,可能导致有偏见的结果。交叉验证、特征选择算法和匿名化技术等对策对于提高阿尔茨海默病预测中模型的准确性和可靠性至关重要,最终改善诊断和治疗。
4.3 权衡讨论
在所审查的论文中,大多数作者应用了预处理技术,尽管有些在他们的CNN网络中没有使用预处理。尽管如此,建议在使用原始数据之前遵循标准的预处理步骤,特别是在传统机器学习中。这个过程通常包括强度校正、去颅骨、配准、归一化和组织分割。
论文表明,SVM是常用的,但CNN因其在诊断任务中的优越性能而越来越受欢迎,尽管这以可解释性和资源密集为代价。从3D图像中获取2D切片是成本效益高的,并且可以增加数据集的大小,通常关注中心的更高熵切片。然而,独立使用切片会丢失相互关系信息,这表明对于基于2D切片的数据应使用小型架构。基于3D补丁的方法提供大型数据集,但处理大量分类器和选择信息丰富的特征可能具有挑战性。
深度学习方法,包括CNN和自动编码器,在AD检测中显示出巨大潜力。CNN捕捉空间依赖性并学习区分性特征,而自动编码器通过重建输入图像来提取信息丰富的特征。迁移学习在较小的数据集上微调预训练模型。自动编码器可能在标记数据有限的情况下表现出色,而迁移学习可以提高性能,具体取决于具体应用、数据可用性和计算资源。深度学习在AD检测方面具有巨大潜力,为诊断和治疗提供了见解。
5. 结论
这篇全面的综述强调了机器学习(ML)和先进影像技术在早期阿尔茨海默病(AD)检测中的重要作用。随着AD患病率的上升和早期干预的紧迫性,创新的方法正在改变诊断和治疗。
我们强调了视觉生物标志物、多样化的数据集和各种影像方法在AD早期识别中的重要性。我们深入探讨了从预处理到深度学习的ML技术,揭示了它们在复杂数据中检测AD细微模式的能力。
值得注意的是,卷积神经网络、自动编码器和迁移学习脱颖而出,在区分AD与健康状态方面提供了高准确性。这些模型可以重塑临床实践,实现及时的干预和个性化的护理,应对AD管理中的挑战。
然而,障碍依然存在,包括评估指标的标准化、有限的数据集以及将研究转化为临床应用。随着ML的发展和数据集的增长,这些挑战可以被克服,从而释放AD诊断的全部潜力。
本综述强调了ML和影像技术对早期AD检测的变革性影响。跨学科合作对于充分利用这些技术至关重要,为改善预后和减轻AD的全球负担带来了希望。