神经影像分析方法与人工智能技术用于精神分裂症可靠生物标志物与精准诊断：近十年来中国学者取得的成就

背景与假设

精神分裂症（SZ）的特征是显著的认知与行为紊乱。神经影像技术，尤其是磁共振成像（MRI），已被广泛用于研究 SZ 的生物标志物、区分 SZ 与健康状态或其他精神障碍，以及探索 SZ 内部或跨 SZ 与其他精神障碍的生物分型（biotypes），以促进对 SZ 的精准诊断。近年来，中国利用 MRI 研究 SZ 的工作显著增长。

研究设计

本文综述了利用单模态或多模态 MRI 的先进神经影像与人工智能（AI）方法，以揭示 SZ 的机制并促进 SZ 的精准诊断，特别强调近十年来中国学者取得的成就。

研究结果

本文重点关注：从高维 MRI 数据中捕捉细微脑功能与结构属性的方法；用于获得重要且稀疏神经影像特征的多模态融合与特征选择方法；用于区分不同障碍的监督式统计分析与分类方法；以及用于识别基于神经影像的生物分型的无监督聚类与半监督学习方法。关键在于，本文突出每种方法的特征，并强调在生物标志物提取与基于神经影像的诊断方面，不同方法之间的相互联系，这不仅有助于理解 SZ，也有助于探索其他精神障碍。

结论

我们提供了一篇有价值的综述，系统回顾了主要聚焦于中国学者 SZ 研究的先进神经影像分析与 AI 方法，旨在促进 SZ 以及其他精神障碍在中国与国际范围内的诊断、治疗与预防。本文发表在Schizophrenia Bulletin杂志。

引言

精神分裂症（SZ）以一系列影响知觉、思维与行为的症状为特征，其患病率不仅在中国很高，在世界许多其他国家也同样很高。SZ 的异质性已成为理解 SZ 的病理生理学并开发有效治疗的重要障碍。此外，由于 SZ 与其他精神障碍之间存在显著的症状重叠，包括双相障碍（BP）、分裂情感性障碍（SAD）、自闭症谱系障碍（ASD）等，SZ 的临床诊断与治疗变得极为困难。尽管大量研究已经表明，神经影像技术，如功能磁共振成像（fMRI）、结构磁共振成像（sMRI）和弥散 MRI（dMRI），能够帮助研究 SZ 的脑损害、SZ 与其他精神障碍之间的机制差异，以及 SZ 内在的异质性，但利用神经影像数据提取可靠的生物标志物并获得有效的 SZ 诊断仍面临巨大挑战。

在提取有效生物标志物与构建准确诊断模型方面的挑战，源于需要同时提升可解释性、可重复性、可判别性、可靠性与泛化性的复杂性。作为标准提出的生物标志物必须满足严格的标准：具备可解释性、与生理过程相关，并能为精神障碍的病理生理与机制提供洞见。此外，可重复性至关重要，以确保生物标志物在不同人群中的有效性。进一步而言，生物标志物必须能够准确地区分目标群体，并为所研究的障碍提供一系列指标，包括多模态指标与模态特异性指标。一个令人满意的基于神经影像的诊断模型应具备关键属性：它应能在多种精神障碍与健康状态之间实现精准区分，帮助临床医生做出知情决策。除强判别性之外，诊断模型还应具备良好的泛化能力，以适应不同数据集，并能在不同模态或多模态组合下获得稳健的诊断结果。

研究者已经做出诸多努力，利用神经影像数据衍生的指标来识别可靠的生物标志物，并为精神障碍开发准确的诊断模型。对反映脑功能、脑结构或二者组合的测量指标进行估计，是基础性的第一步。在获得神经影像测量指标之后，后续分析通常分为三大类：统计分析、分类、以及聚类方法。统计分析常用于识别不同人群之间脑功能与脑结构的显著差异，这些差异可能作为障碍的潜在生物标志物。分类方法侧重于在诊断标签的指导下识别生物标志物并构建分类器，以区分未来个体的障碍状态。然而，统计分析与分类方法的结果与基于症状的诊断标签紧密相关，而这些标签可能由于临床诊断固有的主观性而缺乏准确性。相比之下，无监督聚类与半监督学习采用数据驱动策略，旨在超越传统诊断分类；它们以尽可能少或完全不依赖临床诊断为目标，通过对神经影像数据的分析，实现生物标志物与具有生物学意义的亚型的同步发现。值得注意的是，SZ 的复杂性导致更高的误诊率以及诊断组内显著的异质性，从而在识别可靠生物标志物与构建精确诊断模型方面带来进一步挑战。

中国学者在开发新型神经影像分析技术与阐明 SZ 潜在机制方面做出了大量努力，为全球更好地理解并应对这一复杂障碍的努力做出了贡献。图 1 展示了过去十年与 SZ 相关研究论文发表的趋势。数据基于 Web of Science Core Collection 的论文，于 2024 年 5 月 16 日使用不同检索词获取。中国学者在包括 fMRI、多模态、分类与聚类等多种检索词下的发文量均稳定位列前三，如图 1(A)–(E) 所示。此外，中国学者的发文趋势自 2018 年以来呈现明显上升，而全球总体趋势在这些年份中则显得上升较为缓慢，如图 1(F)–(G) 所示。本文旨在对中国学者在 SZ 的生物标志物探索与基于神经影像的诊断方面，关于新型神经影像分析方法与人工智能（AI）技术发展的进展进行全面综述。值得一提的是，这种全面理解不仅服务于 SZ 研究，也将显著促进精神障碍精准医学这一更广阔领域的发展，尤其是那些以神经影像方法为基础的研究方向。

图1 过去十年精神分裂症研究的趋势基于不同检索词

（A）–（D）前十个国家的精神分裂症研究论文数量。（E）过去十年全球前十个国家精神分裂症研究论文总数。（F）过去十年全球精神分裂症研究趋势。（G）过去十年中国精神分裂症研究趋势。（A）–（D）中每个柱形图上方的数字表示由中国学者署名或共同署名的文章百分比。（E）中，中国学者的发文量占比与排名显示在每个柱形图上方。

中国学者提出的神经影像测量指标及其在 SZ 中的应用

神经影像在探索精神障碍（尤其是 SZ）的脑功能与脑结构方面发挥着至关重要的作用。由于神经影像数据固有的高维度、显著噪声以及明显的个体差异，从中提取有意义的神经影像测量指标是一个重大挑战。本节对常用的神经影像测量指标进行了全面概述，重点关注中国学者提出的指标。这些指标包括对脑功能的评估、对脑结构的评价，以及多模态测量指标的整合。此外，还提供了关于其意义、优势与应用的深入见解。表 1 总结了用于探索 SZ 的神经影像测量指标的简要内容。为帮助理解，我们还在图 2 中展示了这些神经影像测量指标的示意图。

表 1. 神经影像测量指标及其特征总结

图 2. 用于探索 SZ 的神经影像测量指标示意图

单模态 MRI 的神经影像测量指标

在 fMRI 研究中，中国学者提出并被广泛采用的、用于评估脑内局部功能的测量指标包括：区域同质性（ReHo）、低频振幅（ALFF），以及分数 ALFF（fALFF）。ReHo 通过考察某一体素与其相邻体素之间时间序列的同步性来评估神经活动的同质性。某一区域的 ReHo 值越高，表示该区域神经活动的同质性越强。ALFF 通过测量特定频率范围（通常为低频段）内信号振幅来反映神经活动水平。fALFF 是特定低频段内 ALFF 与全频段 BOLD 波动总振幅的比值，用以表示低频振荡的相对贡献。这些测量指标能够揭示脑的局部活动特征，从而有助于理解正常脑功能以及不同脑疾病的神经基础。确实，这些指标极大推动了 SZ 的研究。

除评估局部功能之外，fMRI 的一个关键方面还在于评估不同脑区之间的相互作用，尤其是提取脑功能网络或连接。早期研究在静态分析框架下将功能网络/连接视为随时间不变，并可分为假设驱动方法与数据驱动方法两类。前者如基于感兴趣区（ROIs）的方法依赖研究目标，后者则基于模型假设。数据驱动方法主要包括独立成分分析（ICA）、稀疏字典学习（SDL），以及深度学习。对于基于 ROI 的方法，关键步骤在于确定 ROI，因为得到的连接对 ROI 的位置、形状与大小可能非常敏感。中国研究者开发了 Brainnetome 图谱，利用连接信息定义脑区，并已被广泛用于 SZ 研究。ICA，尤其是空间 ICA，是最重要的数据驱动方法，它将 fMRI 数据分解为在空间上相互独立的成分（ICs）及其对应的时间序列（TCs），从而可评估：由有意义 ICs 表征的网络内连接，以及利用 TCs 计算的网络间连接。然而，使用 ICA 面临诸多挑战，包括：初始化导致的成分变异、输出成分的随机顺序，以及成分数目的不确定性。为减轻随机初始化的影响，Yang 等提出通过评估 ICA 多次重复运行结果的一致性来提升功能网络可靠性的方法。为解决成分顺序随机的问题，Du 等提出了组信息引导 ICA（GIG-ICA）用于多被试 fMRI 数据分析，并已应用于大量研究。GIG-ICA 相较于传统组 ICA 方法3 表现更优，因为它同时优化个体层面的成分独立性以及跨被试的成分对应关系。为在大样本 fMRI 数据中实现快速且可靠的脑功能网络估计，还提出了 NeuroMark ICA 流水线，并被广泛用于研究多种精神障碍的脑功能损害。此外，SMART ICA 通过将聚类技术与 ICA 结合，从多模型阶 ICA 结果中自动识别可靠功能网络，同时提供不同尺度功能网络之间的关联信息。

近年来，能够捕捉脑功能网络/连接随时间变化的动态分析越来越受关注，并已用于探索 SZ。常见的基于滑动窗的方法基于短时信号估计时变连接。然而，一个挑战在于：由不同窗得到的时变连接模式在不同被试之间缺乏直接对应关系。为解决这一问题，Du 等提出了多种矩阵分解与聚类方法，从动态连接中提取功能连接状态以便进一步分析，并发现了 SZ 的一些有趣生物标志物。

在 sMRI 分析方面，除经典的灰质（GM）体积与皮层厚度（由基于体素和基于表面的方法计算）之外，中国学者还提出了形态学脑连接组（MBC），通过低阶或高阶方法绘制脑区间局部形态特征的统计相互依赖关系。低阶方法通过相似性、散度或偏离度来估计脑区间形态连接。相似性方法基于单一形态特征来测量连接，该形态特征可由空间、频率、小波或多种形态特征表示。散度方法基于散度度量计算不同脑区概率密度函数之间的连接。偏离度方法通过量化局部脑形态相对于参考分布的偏离，或通过考察将某一患者个体加入健康对照（HCs）前后形态连接的变化来推断连接。在由低阶方法获得连接后，高阶方法进一步考察不同脑区之间低阶形态关系的相互作用。MBC 已被用于研究 SZ 患者形态连接的改变。

弥散张量成像（DTI）是 dMRI 中最常用的神经影像技术之一，常用于研究白质（WM）特性。常见 DTI 指标包括各向异性分数（FA）、平均弥散度（MD）等。中国学者还提出了基于方向场分析（director field analysis ）的更高级指标，用于探索白质纤维束方向的几何变化。研究者也越来越关注利用基于 dMRI 的纤维束追踪来研究白质连接。可基于 DTI 模型或更高级的球形去卷积模型，采用确定性或概率性追踪来重建皮层区域之间的纤维通路。中国学者使用这些方法来考察 SZ 患者白质的变化与完整性，并研究异常白质完整性与解剖上相关脑区灰质变化之间的关系。

一系列刻画网络拓扑的图论指标被广泛用于检验从 fMRI、sMRI 与 dMRI 获得的功能连接、形态连接与结构连接。这类图论指标包括节点中心性、聚类系数、最短路径长度等，已被用于探索脑内信息整合、分离与传播，以揭示 SZ 的异常连接模式。

神经影像多模态融合测量指标

整合不同模态的测量指标可能为机制提供有趣洞见，并提高诊断准确性。中国研究者开发了多种多模态融合方法，涵盖无监督与监督两种方式。由于典型相关分析（CCA）只能同时处理两种模态，多集合 CCA 已被用于 SZ 研究。该方法通过考察多模态神经影像测量指标以研究其共享特征，从而为 SZ 提供一种综合的融合测量指标。进一步地，多集合 CCA 与联合 ICA 结合使用，以更好地在不同模态之间平衡差异性与相似性，从而实现融合。此外，还有一种增强策略：将监督信息纳入多集合 CCA + 联合 ICA 框架，借助额外知识（如多种认知指标与多基因风险评分）选择性提取特定的融合特征。对于这些基于分解的融合方法，解读融合特征时需要谨慎，因为所得成分未必能直接反映原始功能或结构意义。

中国学者用于探索 SZ 的统计分析

由于简便，双样本 t 检验、配对 t 检验与方差分析等统计方法常用于评估不同人群之间的脑差异。然而，应谨慎解读观察到的组间差异，因为年龄、性别、头动以及研究站点差异等混杂因素都可能影响结果。此外，这些差异未必能作为有效生物标志物，因为其区分障碍状态的能力并不确定。本节我们对中国学者使用统计分析开展 SZ 研究的工作进行了全面总结。

统计分析已被广泛用于研究 SZ 患者相对于非患者的脑损害。中国研究者基于多种神经影像测量指标揭示了 SZ 的全脑层面改变，例如结构指标、静态与动态功能连接，以及白质结构连接。中国研究者也通过聚焦特定脑区对加深 SZ 理解做出了重要贡献。例如，特定脑区（如后扣带皮层）的连接异常，以及特定脑区（如海马）的结构损害，已获得显著支持。鉴于 SZ 是一种多因素且机制复杂的疾病，中国研究者还将脑改变与遗传因素及异常行为结合分析，以增强对 SZ 的理解。值得注意的是，Wang 等提出了一个整合框架，将个体遗传风险、影像学功能环路、临床表现以及群体层面多组学信息结合起来，以解析 SZ 的环路异常。

中国研究者还通过比较治疗前后获得的脑测量指标来探索 SZ 在治疗过程中的变化，旨在识别生物标志物并为治疗提供洞见。对长期药物治疗效应、未治疗人群以及不同 SZ 亚组的研究，有助于更细致地理解 SZ 的复杂性与异质性。还有研究通过考虑特定应用场景进一步细化 SZ 的研究分组，例如疾病不同阶段、是否存在言语性听幻觉，以及耐药性。

此外，理解 SZ 与其他精神障碍之间的共性与差异也至关重要。中国学者将 SZ 与 BP、ASD 以及重性抑郁障碍（MDD）等其他精神障碍进行比较，通过研究脑静态功能网络与连接、连接动力学变化以及脑结构属性，提供了关于它们相似性与差异性的有趣洞见，并推动了跨障碍的维度化视角。

中国学者用于探索 SZ 的 AI 技术

AI 技术正越来越多地应用于精神障碍（如 SZ）的研究，展现出揭示障碍机制并推进基于神经影像诊断的强大潜力。本节我们回顾经典与先进的 AI 技术，包括：用于获得稀疏且有效神经影像特征的基础特征选择；用于区分不同障碍状态的监督分类；用于自动识别生物分型的无监督聚类；以及利用部分诊断标签开展障碍探索的半监督学习，重点关注中国学者提出的方法。为便于理解，表 2 概述了 AI 技术及其相应特征；图 3 以可视化方式呈现了不同方法之间的关系与差异。

表 2. 用于探索 SZ 的 AI 技术总结

图 3. 用于探索 SZ 的 AI 技术示意图

基于神经影像的特征选择

探索基于神经影像的生物标志物面临显著挑战，原因在于神经影像数据样本量小、维度高且噪声大。特征选择旨在识别最具信息量的特征，有助于应对这些挑战，从而增强生物标志物在揭示障碍机制方面的可解释性，并提高所构建分类与聚类模型的准确性与泛化能力。

针对神经影像测量指标的特征选择主要包括三类：过滤式（filter）、包裹式（wrapper）与嵌入式（embedded）方法。过滤式方法（例如 ReliefF 与基于信息论的方法）根据某些准则分别评估特征重要性，具有简单、高效的优点，但由于与具体模型无关，可能牺牲性能。包裹式方法（例如支持向量机（SVM）的递归特征消除（SVM-RFE）以及基于进化计算的方法）与模型强相关，依据模型性能评估特征，能提供更高准确性，但计算代价更高。嵌入式方法（例如基于惩罚项的方法与基于决策树的方法）将特征选择集成到模型训练过程中，在性能与效率之间取得平衡，但通常比过滤式与包裹式方法更复杂。

SZ 诊断的显著异质性给识别有效生物标志物带来重大挑战。中国学者基于上述三类特征选择方法在探索 SZ 相关异常方面做出了重要贡献。近来，Xing 等提出一种新的过滤式方法，称为“多粒度加权邻域粗糙集结合基于熵的特征选择”，该方法根据特征捕捉一致样本的能力来评估特征重要性，从而在对 SZ 患者与健康对照（HCs）分类时得到更稀疏、且判别性更强的生物标志物。SVM-RFE 方法因其能够选择判别能力高的特征，而被广泛用于识别 SZ 的生物标志物。Zhang 等将特征选择过程嵌入到一个基于超图的多模态数据融合模型中，以选择稀疏但重要的多模态特征，从而揭示影响 SZ 的风险基因、环境因素与异常脑区之间的重要相互作用。总体而言，特征选择在识别 SZ 生物标志物方面至关重要，为后续任务（如障碍区分与分型）奠定基础。

尽管已有进展，仍需进一步改进以应对诸如跨不同数据集的泛化性、多模态数据整合的复杂性、以及处理高维大数据的效率等挑战。利用可用先验信息开发面向精神障碍的定制化特征选择算法，将增强其识别特定特征并提升泛化性的能力。也亟需能够处理多模态数据的新特征选择方法，其重点在于在选择稀疏且有效神经影像特征的同时，平衡并关联不同模态的特征。此外，还期望提升计算策略并引入额外引导，以开发适用于高维与大样本数据集分析的高效特征选择方法。

与 SZ 相关的分类

基于神经影像测量指标的 SZ 分类研究通常旨在区分不同群体并探索生物标志物，并以可用数据的临床诊断作为指导。与统计分析相比，分类框架在提取判别能力更强的生物标志物方面具有优势，并能有效地为新数据分配预测类别标签。本节主要回顾中国学者在机器学习、深度学习与多模态融合分类方面的相关贡献。

机器学习

中国研究者在探索经典机器学习在 SZ 研究中的应用方面，主要从三个角度取得了显著进展。第一，许多研究聚焦于利用神经影像辅助 SZ 诊断。为考察不同测量指标对 SZ 的判别能力，Lei 等使用多种分类器分析了功能影像、功能连接与基于图的指标等多类测量指标，支持“功能连接相较其他测量指标具有更优判别能力”的观点。91 考虑到某些子网络中观察到的显著异常，一些研究使用相关连接特征对 SZ 与 HC 进行分类。为探索 SZ 的遗传性，Jing 等基于大规模功能网络训练了一系列分类器以区分 SZ 与 HC，并进一步将这些分类器用于分析 SZ 患者的一等亲属，从而帮助识别潜在 SZ 患者。第二，一些研究更关注于识别能够区分 SZ 与 HC 或其他障碍的生物标志物。借助分类模型，一些研究揭示了默认模式网络、中央执行网络、显著性网络与视觉网络内皮层厚度与表面积的受损，以及颞叶、顶叶与皮下区域的异常白质结构连接，作为有前景的生物标志物。Liu 等在留一特征选择过程中考察分类器能力的变化，指出来自颞叶与丘脑-皮层区域的功能连接对分类准确性贡献显著，因此可能作为生物标志物。Wang 等采用一种改进的决策树方法 Hollow-tree Super，从而发现与 SZ 症状相关的潜在生物标志物，其主要位于默认模式网络与中央执行网络内。最后，少量工作利用分类策略探索多个与症状相关精神障碍之间的关系。Du 等估计了 HC、SZ、BP 与 SAD 的动态功能连接，使用连接状态进行二分类与多分类，最终揭示了它们之间的共性与特异性改变，以及它们复杂的相互关系。

当然，使用机器学习探索诸如 SZ 这样的精神障碍仍面临若干挑战。由于经典机器学习算法往往依赖预先或组合的特征选择过程以提高分类准确性并识别有效生物标志物，因此如何改进特征选择与分类器的融合仍值得进一步研究。此外，目前仍不清楚：针对特定类型神经影像测量指标，哪些分类器最合适；以及针对具有特定维度与样本量的数据，哪些分类器最优。再者，临床诊断的主观性可能导致用于训练分类器的类别标签不准确。因此，开发能够减轻这些负面影响并提高分类有效性的方法至关重要。

深度学习

深度学习相较经典机器学习的优势来自其建模灵活性与可扩展性，以及能够自动提取特征、容纳更多可学习参数的能力。深度学习针对不同数据类型提供多样化模块，例如：用于向量数据的多层感知机（MLP）、用于 2D 或 3D 矩阵数据的卷积神经网络（CNN）、用于图数据的图神经网络（GNN），以及用于序列数据的循环神经网络（RNN）/Transformer。中国学者在深度学习模型的应用与改进方面做出了重要贡献，尤其体现在发现新的生物标志物以及获得更佳的 SZ 分类性能方面。

MLP 因其易用性与有效的分类能力而被广泛使用。Cui 等将 MLP 应用于基于体素的灰质（GM）测量指标，在 8 个数据集上区分 SZ 与 HC 的分类准确性高于 SVM。鉴于 CNN 能够捕捉空间层级并从矩阵数据中学习有意义特征，CNN 被广泛用于基于 3D 脑结构测量指标以及以 2D 矩阵形式组织的功能连接来分类不同群体。Lin 等从复值静息态 fMRI 数据中提取空间源相位（SSP）图，并使用 3D CNN 对 SZ 与 HC 进行分类，在不同 SSP 图上获得了不同的准确性。26 Sun 等构建了深度卷积自编码器，用于自动嵌入全脑 sMRI 特征；使用这些特征训练的分类器优于使用传统形态学特征训练的分类器。Wang 等提出一种基于 2D CNN 的新型多核胶囊网络用于功能连接分析。GNN 在处理可表示为图的复杂脑网络特征方面具有优势。为构建信息量更高的图以增强分类，中国研究者在开发不同测量指标以表征节点并刻画边方面做出了大量努力。一项研究使用 ALFF、ReHo 等局部脑区测量指标作为节点特征，并以功能连接测量指标作为图中的边。另一项研究将某脑区（即节点）与全脑其他脑区之间的功能连接作为节点特征，同时使用 k 近邻生成稀疏的边特征。由于自注意力机制能够强力捕捉特征关系，Transformer 模型也被用于对 SZ 与 HC 分类并获得了较高准确性。考虑到 RNN 在序列数据中保持记忆的特性，Yan 等将 RNN 与 CNN 结合，以多尺度方式对时间序列的动态变化进行建模，从而区分 SZ 与 HC。

尽管深度学习相较传统机器学习可能展现更强的分类能力，但仍需正视并解决若干不足。第一，神经影像数据量有限常使深度学习模型训练变得困难。可能的解决方案是收集更多高质量数据并采用预训练技术。第二，深度学习的黑箱特性导致生物标志物的可解释性较弱。因此，可以考虑整合可解释模块，开发针对特定神经影像测量指标的可解释深度学习模型。第三，与机器学习类似，如何在面对不准确类别标签时仍提升分类模型的有效性至关重要。可行的技术方向包括稳健训练算法、标签过滤或校正，以及半监督学习。

多模态分类

使用多模态数据进行分类有助于获得更强的区分能力，并将多模态测量指标作为关联生物标志物来探索精神障碍的病理机制。中国研究者通过整合多个神经影像测量指标，采用机器学习与深度学习方法对 SZ 进行分类。在机器学习中，决策树在多模态融合方面具有天然优势，因为它能从多个模态特征集合中学习有效特征并生成具有判别性的树结构。Liang 等提出使用梯度提升决策树，基于来自 sMRI 与 DTI 的多种神经影像测量指标区分首发 SZ 与 HC，并发现左侧横颞回与右侧海马旁回的皮层厚度，以及左侧皮质脊髓束与右侧外囊的各向异性分数，可能作为潜在生物标志物；其分类准确性也高于仅使用单模态指标。由于 CNN 能处理不同类型数据，Du 等开发了基于 CNN 的多模态融合分类模型，从 3D 功能网络、功能连接与 GM 体积中自动提取特征，以区分 ASD 与 SZ，结果支持融合方法相较仅使用单一类型特征能获得更高且更稳定的分类准确性。一些研究采用机器学习策略：先在不同模态中分别训练分类器，再将其合并用于多模态分类。这种策略在建模过程中并不融合特征，但其优势在于能够直观判断哪种模态数据更具判别性。考虑到 SZ 的高遗传性，中国研究者还将多模态分类扩展为整合神经影像测量指标与遗传特征，从而促进对脑异常的全面理解。

尽管多模态分类在疾病探索与理解方面潜力巨大，但一开始引入更多特征空间可能同时增加有效特征与噪声，使得寻找有意义特征更具挑战。此外，如何有效建模不同模态之间的关系也是一个重大挑战。因此，亟需开发能够阐明不同模态特征之间关系、同时提升分类准确性的模型。

用于识别 SZ 生物分型的聚类

鉴于临床诊断的主观性，近年来出现大量研究，聚焦于利用神经影像测量指标自动提取具有生物学意义的群体并识别相关生物标志物。无监督与半监督学习方法常用于识别某一精神障碍内部或跨诊断精神障碍的生物学亚型（称为生物分型，biotypes）。基于神经影像测量指标对被试进行聚类通常包括：执行特征选择或特征提取以获得稀疏但有影响力的特征；使用这些特征对被试聚类以识别生物分型；随后对所得生物分型进行验证。为提高聚类性能，对特定障碍患者进行聚类的特征选择往往依赖于识别患者与 HC 之间的差异。聚类面临的挑战包括选择合适的聚类算法以及确定合适的聚类数目，因为即便聚类数目是任意给定的，某些方法也可能强行形成聚类。识别出的生物分型可靠性通常通过聚类有效性指标来评估，例如轮廓系数（Silhouette coefficient）与 Davies–Bouldin 指数。此外，常通过独立数据、数据子采样、数据聚合、Bootstrap 聚合（bagging），以及额外模态数据与临床信息进行进一步验证。如此严格的评估能够确保所发现的簇代表具有生物学意义、且可重复的类别。

无监督聚类

无监督聚类方法，如 K-means、高斯混合模型、层次聚类、基于密度峰值的聚类（DPC）、协同聚类，以及集成聚类，已被用于识别精神障碍的亚型。每种方法各有优势：K-means 以简单著称；高斯混合模型能够处理多种分布；层次聚类能对聚类结果提供直观洞见；基于密度的方法擅长发现任意形状的簇；协同聚类旨在在聚类过程中同时捕捉被试与特征之间的结构关系。因此，在探索亚型时，应充分考虑数据特性来选择聚类算法。

中国学者在探索与 SZ 相关的生物分型与生物标志物方面取得了大量进展。Ma 等使用 K-means 分析 SZ 患者的 GM 体积，发现 3 个亚组，每个亚组具有独特的阳性与阴性症状量表（PANSS）评分。Zhao 等采用 K-means++，发现 2 个 SZ 亚型，它们在神经解剖与认知表现上显著不同。Sun 等使用层次聚类分析 DTI 数据，进而在未用药的首发 SZ 患者中揭示 2 个不同亚型，它们具有不同的白质异常模式。Liang 等使用谱聚类将首发、抗精神病药物未使用的 SZ 患者分为 2 个亚型，这些亚型在连接、临床症状与认知方面存在差异。Xiao 等依据皮层与皮下形态学特征，使用 DPC 将从未治疗的首发 SZ 患者分为 3 个亚型，并在中程 SZ 患者的独立数据集以及合并样本上对亚型进行了验证。Chang 等利用基于深度学习的集成聚类，在 SZ、BP 与 MDD 跨障碍人群中解析出两个亚型，其特征为额叶与后部脑区之间功能失衡的差异模式。

在使用无监督聚类进行可靠生物分型识别方面仍存在挑战。所得生物分型在不同研究间往往可重复性较差，可能由于该方法纯粹数据驱动的性质所致。此外，聚类效果高度依赖初始特征的选择或提取，使得如何获得更适合的特征以改进聚类结果仍不确定。展望未来，将特征提取与聚类相结合有望成为解决这一问题的潜在方案。并且，在缺乏任何先验信息的情况下推断最优亚型数目也同样具有挑战。融合多模态特征可能有助于通过聚类识别最可靠的生物分型。

半监督学习

半监督学习方法通过引入部分传统诊断知识来增强精神障碍的分型。利用最大间隔 SVM 分类器，一系列方法通过区分患者与 HC 并同时对患者进行分类来发现疾病异质性。尤其是多尺度异质性分析与聚类方法提取多尺度特征表示以构建用于同时分类与聚类的非线性多面体，并融合得到的多尺度聚类解以生成最终的亚型成员归属。

中国研究者提出直接利用“典型被试”（其神经影像指标与临床诊断一致性更高）来提高分型可靠性。研究者开发了一种自适应半监督深度聚类框架，用于识别 SZ 与 ASD 的跨诊断生物分型。该方法包括：用典型被试训练深度学习模型；对无标签数据进行分类与半监督聚类；随后通过加入高置信度伪标签的被试，对典型被试进行迭代式精炼，从而得到生物分型。更近期，提出并应用于 SZ 的“基于标签噪声过滤的维度预测（LAMP）”方法使用一个完整的基于随机森林的标签噪声过滤模型来识别典型被试，并以其构建维度预测模型，从而为独立数据集获得生物分型。

在使用半监督学习进行生物分型识别与生物标志物提取时，关键挑战包括：确定用于模型构建的合适先验知识；确保这些先验知识不会给结果引入偏倚；以及识别需要瞄准的最优生物分型。我们认为，半监督学习通过有效整合临床信息与神经影像数据，在揭示 SZ 异质性以及不同精神障碍之间联系方面具有巨大前景。

讨论

SZ 的异质性以及 SZ 与其他精神障碍之间的症状重叠，使 SZ 的诊断与治疗面临挑战。神经影像与 AI 的进展为识别生物标志物并实现 SZ 的基于神经影像的辅助诊断提供了有前景的途径。本文不仅广泛回顾了中国学者在与 SZ 相关的神经影像分析、机器学习与深度学习技术方面取得的进展，也对用于探索可靠生物标志物与实现一般精神障碍基于神经影像诊断的最先进方法做了深入总结。

认识到获得能够反映脑功能、脑结构及其组合的准确且有意义测量指标至关重要，中国研究者提出了用于生成脑功能网络/连接、结构关联、白质连接以及多模态融合测量指标的创新方法。与脑功能相关的分析方法既覆盖局部水平也覆盖全脑水平，并同时从静态与动态视角进行考量。个体化 MBC 通过低阶或高阶方式提供脑区间的统计关联。研究者还开发了无监督与先验知识引导的融合框架。利用神经影像测量指标，中国学者在有或无临床诊断指导的情况下采用多种策略探索 SZ。尽管统计分析与分类方法都利用临床诊断标签来探索潜在生物标志物，分类方法还能提供一个具体模型，以使用神经影像对新被试进行诊断。中国学者通过统计分析揭示了 SZ 与 HC 之间、不同 SZ 亚组内部、以及 SZ 与其他精神障碍之间的显著差异，这极大推进了对 SZ 的理解。鉴于分类是 SZ 研究中的主导 AI 技术，中国研究者也应用并改进了机器学习与深度学习方法以区分 SZ 并探索生物标志物。由于临床诊断固有的主观性、SZ 的异质性以及 SZ 与其他精神障碍之间的症状重叠，无监督聚类与半监督学习能够实现生物分型与生物标志物的自动提取，旨在超越传统临床诊断类别。中国研究者致力于在 SZ 内部获得更可靠、更稳健的生物分型，并将努力扩展到 SZ 与其他精神障碍之间的区分。

尽管在结合神经影像与 AI 技术探索生物标志物并促进 SZ 基于神经影像诊断方面已取得大量进展，但要将这些方法与研究发现用于推动 SZ 的临床转化仍然充满挑战。其中一个障碍是生物标志物在不同数据集间可重复性较低。可能的解决方案包括：利用 meta-analysis 进一步提炼既有发现；并在削弱混杂因素（例如用药、年龄、性别与站点）影响后，基于大样本数据通过 mega-analysis 获得稳健结果。另一个挑战来自于：基于不同模态与多种方法获得的生物标志物来揭示 SZ 机制的复杂性。整合多层级生物标志物将有助于为治疗决策提供信息。此外，开发一种利用神经影像的统一诊断模型，使其能够有效判定新被试的精神障碍类别，或评估其与某一特定障碍的一致程度，同样具有挑战。鉴于临床与神经影像测量指标之间的不一致、样本有限且不均衡，以及不同精神障碍之间复杂的相互关联，有必要提出一种模型：能够有效结合临床信息与神经影像驱动信息，适配小样本与不平衡数据集，并提供对精神障碍的维度化评估。

总之，近十年来中国学者在利用神经影像研究 SZ 的方法学发展方面做出了多层面的努力。这些方法促进了 SZ 的单模态与多模态可靠生物标志物的识别，并推动了 SZ 精准诊断的进展。事实上，这些进展也将研究从 SZ 扩展到更广泛的精神障碍领域，与精准医学的总体目标相一致。

原文：Neuroimage Analysis Methods and Artificial Intelligence Techniques for Reliable Biomarkers and Accurate Diagnosis of Schizophrenia: Achievements Made by Chinese Scholars Around the Past Decade