目的:
     重度抑郁症对抗抑郁药物治疗的反应在个体间差异很大,这延长了寻找有效治疗方法的过程。作者旨在确定一种多模态机器学习方法是否能预测重度抑郁症患者对舍曲林的早期反应。他们评估了基线时和治疗1周后,磁共振神经影像学和临床评估对预测的贡献。

方法:
     这是一项对“临床护理中抗抑郁反应的调节因素和生物标志物确立(EMBARC)”研究数据的预注册二次分析,该研究是一项多中心、双盲、安慰剂对照的随机临床试验,纳入了296名未服药的复发性或慢性重度抑郁症成年门诊患者。在治疗前和治疗1周后收集了磁共振神经影像学和临床数据。使用平衡准确率(bAcc)和受试者工作特征曲线下面积(AUROC)分数来量化预测8周后治疗有效和缓解的表现。

结果:
     共有229名患者被纳入分析(平均年龄38岁[标准差=13];66%为女性)。在预测舍曲林治疗有效方面的内部交叉验证表现(bAcc=68% [SD=10],AUROC=0.73 [SD=0.03])显著优于随机水平。在安慰剂无效者(bAcc=62%,AUROC=0.66)以及转用舍曲林的安慰剂无效者(bAcc=65%,AUROC=0.68)数据上进行的外部交叉验证,其结果差异表明模型对舍曲林治疗相比安慰剂治疗具有特异性。最后,多模态模型的表现优于单模态模型。

结论:
     研究结果证实,舍曲林的早期治疗反应是可以预测的;与安慰剂相比,这些模型对舍曲林具有特异性;结合多模态MRI数据和临床数据有助于提高预测效果;并且灌注成像对这些预测的贡献最大。使用这种方法,一个精简而有效的方案可以实现舍曲林治疗计划的个体化,从而改善精神科护理。本文发表在American Journal of Psychiatry

杂志。 (可添加微信号19962074063或18983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,另思影提供本文相关的机器学习,多模态脑影像(ASL,DTI,脑结构,静息态)数据分析服务与课程,感兴趣可联系,直接点击,即可浏览):

第五十二届脑影像机器学习班(南京,11.20-25)

第五十九届扩散成像数据处理班(南京,11.27-12.2,新增DTI-ALPS)

第十八届扩散磁共振成像提高班(南京,12.11-15)

第五十一届脑影像机器学习班(广州,11.1-6)

第五十八届扩散成像数据处理班(广州,11.8-13,新增DTI-ALPS)

第四十九届磁共振脑影像结构班(北京,11.13-18)

第二十二届磁共振ASL(动脉自旋标记)数据处理班(北京,12.4-7)

第三十三届影像组学班(北京,12.11-16)

第一百五十六届磁共振脑影像基础班(重庆,11.19-23)

第九届定量磁敏感成像(QSM)数据分析班(重庆,12.7-9)

数据处理业务介绍:

思影功能磁共振(fMRI)数据处理业务
思影扩散加权成像(DWI)数据处理

思影脑结构磁共振(T1)成像数据处理业务

思影ASL数据处理业务

思影科技影像组学(Radiomics)数据处理业务

思影科技深度学习(Deep Learning)影像组学数据处理


思影科技脑影像机器学习数据处理业务介绍

正文:

     重度抑郁症(MDD)是全球第二大致残原因。至今,尚无客观的个体治疗反应预测指标,而一线抗抑郁治疗仅在三分之一的病例中达到缓解。因此,患者常常需要经历多次序贯治疗和联合治疗。每一次不成功的治疗都会延长疾病负担,并伴随着显著副作用的风险和高昂的社会成本。为了加速缓解,需要有临床价值的生物标志物,以便在治疗开始前或开始后早期指示个体治疗反应

     使用MRI的神经影像学在预测MDD治疗反应方面显示出有希望的结果。尽管多年来已提出多种预测性神经影像生物标志物,但它们的临床应用仍远未成为标准实践,因为相关研究高度异质、效应量小,且主要基于单模态神经影像测量。因此,最近有人建议,应使用机器学习将个体神经影像预测因子与其他(如临床)预测因子相结合,以产生更大的效应并增加神经影像学发现的稳健性。然而,在27项研究中,只有两项结合了多种影像模态或临床信息来预测治疗反应。Sajjadian等人最近的一项研究表明,在预测艾司西酞普兰治疗反应时,结合治疗前和治疗2周后的临床及影像学数据具有优势。在此,我们通过纳入所有已被证明具有预测价值的临床适用MRI模态,进一步推进了这些发现,以开发一个基于大型随机临床试验的多模态模型。该试验包含一个安慰剂治疗组,这不仅允许进行外部验证,还允许测试模型相对于安慰剂治疗对舍曲林治疗的特异性。

     本研究的主要目的是确定,通过机器学习整合多种MRI模态和临床评估数据,是否可以在治疗前(pretreatment)或治疗开始1周后(early treatment)预测对舍曲林治疗的反应。我们的主要假设是,使用多模态方法预测舍曲林治疗的效果显著优于最佳替代方案,即先验有效率(随机水平),从而优于标准治疗计划。此外,我们研究了我们的预测模型相对于安慰剂治疗对舍曲林的特异性。我们假设我们的预测模型将对舍曲林具有特异性,因此我们预期在接受安慰剂治疗的患者中测试表现会降低,但在接受舍曲林治疗的安慰剂无效者中表现相似。最后,我们检验了我们的假设,即多模态方法优于单模态方法。

方法

研究设计
    本研究的方法在分析前已在“开放科学框架”(Open Science Framework)注册中心进行了预注册。我们对“临床护理中抗抑郁反应的调节因素和生物标志物确立(EMBARC)”研究的数据进行了二次分析。EMBARC是一项由美国国家心理健康研究所资助的多中心、双盲随机临床试验(ClinicalTrials.gov标识符:NCT01407094)。EMBARC旨在识别治疗前和治疗早期(第1周)的临床、神经影像、神经生理和行为调节因素,以预测MDD患者对舍曲林和安慰剂的反应(在第8周)患者在获得完整的试验说明后签署了书面知情同意书。试验设计的详细信息已在别处报道。

     EMBARC的主要结局基于使用17项汉密尔顿抑郁量表(HAM-D)测量的症状严重程度。该试验包括两个为期8周的阶段。在第一阶段,所有患者被随机分配接受舍曲林或安慰剂治疗(剂量方案详见在线补充材料的方法部分)。在第二阶段,对安慰剂无效的患者转为接受舍曲林治疗。

人群
     EMBARC纳入了296名年龄在18-65岁之间、被诊断为复发性或慢性MDD且未服用抑郁症药物的门诊患者;参与者不要求是初次服药。为了检验我们的假设,我们定义了三个人群亚组,并为每个亚组训练了四套模型。这些亚组的流程图见图1。亚组A由随机分配到舍曲林治疗组的全部146名患者组成,亚组B由研究第一阶段随机分配到安慰剂治疗组的150名患者组成。亚组C包括来自亚组B的77名患者,他们在研究第一阶段对安慰剂治疗无效,之后在第二阶段转为接受舍曲林治疗。

图1. 使用多模态MRI和临床数据预测重度抑郁症治疗反应研究的CONSORT流程图
     EMBARC临床试验包括两个研究组和两个为期8周的阶段。一组随机接受舍曲林治疗,另一组接受安慰剂治疗。图中突出显示了我们分析中使用的三个人群亚组。前两个亚组在研究的第一阶段,分别是接受舍曲林(A)或安慰剂(B)治疗的患者。第三个亚组包括在第一阶段对安慰剂治疗无效并在第二阶段转为接受舍曲林治疗的患者(C)。

     如果患者在倒数第二次和最后一次评估(即第7周和第8周[第一阶段]或第12周和第16周[第二阶段])的主要结局数据缺失,或超过一种MRI序列的数据缺失,或药物治疗少于2周,则将其从分析中排除。我们检验了排除患者是否显著影响了被分析的人群。我们使用学生t检验对连续变量、卡方检验对分类变量,比较了排除前后的群体特征。被分析人群的社会人口学和临床变量总结在表1中。

表1. 治疗前分析亚组的人口统计学、临床和结局特征

p值表示使用学生t检验(连续变量)和卡方检验(分类变量)计算的患者筛选前后的差异。HAM-D=汉密尔顿抑郁量表;MASQ=情绪与焦虑症状问卷;SHAPS=斯奈思-汉密尔顿愉快感量表。

治疗结局
     在第8周和第16周收集了HAM-D症状严重程度结局。第一个主要临床结局是治疗有效(response),定义为8周后HAM-D分数降低≥50%。第二个是缓解(remission),定义为8周后HAM-D分数≤7。

数据采集
      数据在治疗前和治疗开始1周后(“早期治疗”)采集。数据包括临床评估和MRI神经影像。临床评估包括社会人口学、行为学和神经心理学评估。详情见在线补充材料的表S1。在线补充材料的表S2提供了各站点的MRI扫描仪和脉冲序列信息。简而言之,采集了四种MRI序列:T1加权结构MRI、弥散加权成像、静息态功能MRI(rs-fMRI)和使用动脉自旋标记(ASL)的灌注MRI。弥散加权成像仅在基线时采集。尽管采集了任务态fMRI,但由于其在临床应用中存在实践挑战,本分析将其排除。

MRI预处理
     所有使用的软件程序列于在线补充材料的表S3中。简而言之,T1加权扫描使用FreeSurfer进行标准化,并基于Desikan-Killiany图谱和FastSurfer进行分割。每个解剖区域的体积使用PyRadiomics计算。FreeSurfer分割结果使用MRIQC进行系统的质量控制(QC)。弥散加权成像数据使用JHU ICBM DTI-81白质束图谱和基于纤维束的空间统计(tract-based spatial statistics)进行预处理和分析。使用EDDY QC自动进行质量控制。对于rs-fMRI,使用fMRIPrep数据预处理流程进行标准化和质量控制。随后,使用FSL进行双回归独立成分分析。所得的独立成分通过BrainMap静息态网络中相应匹配良好的图谱进行掩膜处理(Z分数>3)。ASL的共配准、分析和质量控制使用ExploreASL进行。从Talairach图谱定义的感兴趣区域中提取平均定量脑血流量。除了采用各种质量控制工具外,所有分割结果都经过了目视检查。

三层预测因子的定义
     对于治疗前预测,使用治疗前采集的预测因子;对于早期治疗预测,我们计算了预测因子的相对减少量。由于MRI数据仅在第一阶段采集,我们在预测第二阶段结局(即第16周)时没有进行早期治疗建模。

     临床和MRI数据包含许多预测因子。我们根据科学证据的水平,使用三个预定义的子集(“层级”)来限制预测因子的数量。这些预测因子的完整列表见在线补充材料的表S4。

     第1层预测因子包括六个MRI预测因子,这些预测因子具有1级科学证据,如荟萃分析和系统综述所示(总结于参考文献8)。这些预测因子是左、右海马的体积,额叶-边缘系统连接性的均值和标准差,以及前扣带皮层(ACC)定量脑血流量的均值和标准差。在这些MRI预测因子的基础上,添加了以下临床变量:年龄、性别、体重指数、病程、就业状况、HAM-D分数的相对降低,以及情绪与焦虑症状问卷、斯奈思-汉密尔顿愉快感量表和HAM-D的分数。对于第2层(见在线补充材料的表S4),基于较弱的证据(如单一研究)添加了54个预测因子。第3层包含所有未经筛选的240个预测因子。对于单模态模型,排除了来自其他模态的所有预测因子,人群不受影响(表1,图1)。对生成的预测因子进行了缺失值和异常值的质量控制检查。

嵌套交叉验证
     我们遵循严格的建议,以降低偏倚和过拟合的风险,并实施了一个带重复的嵌套交叉验证框架。扫描和结局数据的插补、站点协调、数据值缩放、结局的过采样以及超参数优化都嵌入在内部嵌套中,并在外部交叉验证嵌套中进行测试。

     我们主要假设和单模态模型的训练集和测试集分区由人群亚组A(舍曲林治疗患者)的折叠组成。对于我们关于舍曲林与安慰剂特异性的第二个假设,我们将亚组A上训练的模型在亚组B(第一阶段安慰剂治疗患者)和C(第二阶段舍曲林治疗的安慰剂无效者)上进行外部验证。对于内部验证,我们进行了10折、10次重复的随机K折交叉验证(RSKF),以改善我们的性能评估。对于外部验证,我们也应用了10次重复,因为重复会影响超参数优化期间使用的验证子集。此外,我们进行了一项事后分析,比较了RSKF与重复的“留一站点”交叉验证。

数据准备
     使用K最近邻插补法对特定序列缺失的预测因子进行插补,插补数据来自同一缺失序列,以防止MRI序列间的信息泄露。使用迭代多元条件模型对所有可用的HAM-D分数进行HAM-D结局的插补。为减轻混淆效应,我们使用了一种名为ComBat的开源协调方法。协调中使用的协变量包括年龄、年龄的平方、性别、脑体积和站点。更多细节请参见在线补充材料的方法部分。通过对少数类别进行无放回的随机过采样来平衡响应标签。

机器学习建模
      我们使用Python中实现的XGBoost极端梯度提升机器学习模型进行训练,以受试者工作特征曲线下面积(AUROC)为标准,并采用逻辑目标函数。梯度提升模型在与MDD相关的分类研究中已显示出优于其他标准机器学习方法的性能。在一项事后分析中,我们将此XGBoost分类器的结果与支持向量机和逻辑回归分类器进行了比较。有关这些分类器实现的细节,请参见在线补充材料的方法部分。超参数(见在线补充材料的表S5)使用贝叶斯超参数优化进行了100个周期的优化。为了处理提供给模型的大量预测因子,我们使用基于卡方的特征选择 (31) 进行了特征选择,并将所选特征的数量作为超参数进行优化。(有关所用软件的详细信息,请参见在线补充材料的表S3。)

     此外,我们使用基于不纯度的特征重要性报告了最重要的预测因子。重要性提供了一个分数,表明每个特征在构建提升决策树中的用处或价值。有关预测因子重要性计算的更多信息,请参见在线补充材料的方法部分。

统计分析
     主要的预测性能指标是多次重复和折叠的平均平衡准确率(bAcc)和AUROC。此外,我们还报告了敏感性和特异性。平衡准确率简化了模型评估,使其独立于先验的结局率。我们还计算了诊断优势比的自然对数,以便与之前的荟萃分析进行比较(。对于我们的主要假设,即我们的预测模型显著优于随机水平,我们使用单尾二项式检验,利用唯一测试样本的数量,计算了随机水平下bAcc的95%置信区间。随机水平定义为先验有效率,即最佳替代方法。作为一项补充(事后)分析,我们直接预测了连续的临床结局指标;更多细节请参见在线补充材料的方法部分。

      为了检验我们关于治疗特异性的第二个假设,我们测试了在亚组B(安慰剂治疗)和C(舍曲林治疗的安慰剂无效者)中的外部验证性能是否显著低于在亚组A(舍曲林治疗)中的内部验证性能。我们通过对亚组B与独立测试集A之间,以及亚组C与测试集A之间进行单侧依赖t检验来实现。t检验的样本包括所有建模配置的平均性能估计,即治疗前和早期治疗对缓解和有效的预测。我们从该分析中排除了性能未显著优于随机水平的配置,以避免向无信息率回归。

      最后,我们检验了多模态模型是否优于单模态模型。我们检验了它们的平均性能相同的零假设。我们对单模态和多模态的AUROC分数对使用单尾符号检验,并以p值为0.05作为显著性阈值。

结果

患者选择
     共有229名患者被纳入分析;他们的平均年龄为38.1岁(标准差=13.3),65.9%为女性(表1,图1)。数据缺失原因的详细信息见在线补充材料的表S6。此外,排除主要结局缺失的患者(主要由于失访)并未显著影响人群特征。剩余队列的治疗依从性普遍较高,因为在纳入的患者中,没有一人停药超过一周(见在线补充材料的表S6)。

多模态建模
      平均交叉验证结果的概述见表2。所有第1层模型以及一个基于第2层的模型和两个基于第3层的模型,其性能均显著优于随机水平。其他指标见在线补充材料的表S7。在预测舍曲林治疗有效方面,最佳模型性能是在早期治疗对有效的预测中实现的(bAcc=68% [SD=2.4],AUROC=0.73 [SD=0.03],敏感性=70% [SD=3.3],特异性=70% [SD=3.3],ln[DOR]=2.46 [SD=1.10])(图2,面板1,和表2)。该性能显著优于随机水平(p<0.001)。平均而言,早期治疗的性能(bAcc=66.5% [SD=4.2],AUROC=0.72 [SD=0.11])优于治疗前的性能(bAcc=63% [SD=4.2],AUROC=0.72 [SD=4.7]),但差异不显著(p=0.06)。使用具有更高科学证据水平的预测因子的模型性能更高;所有最佳模型都使用了第1层的预测因子。事后分析的结果,包括使用“留一站点”交叉验证(见在线补充材料的表S8)、机器学习分类器比较(见在线补充材料的表S9)以及连续临床结局的预测(见在线补充材料的表S10和图S1),均在在线补充材料中提供。基于第1层的回归模型在HAM-D量表上实现了5分的平均绝对误差。与主要工作中呈现的相应分类器相比,回归模型在二元分类任务上的表现较差。

表2. 所有配置的主要模型性能指标

     AUC=受试者工作特征曲线下面积;bAcc=平衡准确率;sens=敏感性;spec=特异性;clin=临床评估数据;T1w=T1加权成像;rs-fMRI=静息态功能MRI;ASL=动脉自旋标记;DWI=弥散加权成像。
     受试者工作特征曲线下面积显著高于随机水平且p值<0.05的模型。

图2. 每项分析中表现最佳配置的受试者工作特征曲线
     面板A显示了使用第1层预测因子对亚组A进行早期治疗有效预测时,10个折叠的平均受试者工作特征曲线(ROC);面板B显示了使用第3层预测因子对亚组B进行早期治疗缓解预测;面板C显示了使用第1层预测因子对亚组C进行治疗前缓解预测。AUC=曲线下面积。

     最重要的治疗前预测因子是ASL预测因子。前扣带皮层(ACC)中定量脑血流量的均值和标准差的中位重要性为0.13。请注意,重要性总和为1。第三重要的预测因子是情绪与焦虑症状问卷上的快感缺乏抑郁评分(0.11)。然而,在早期治疗中,我们观察到预测因子从ASL转向临床预测因子。最重要的预测因子是HAM-D分数的降低(0.17)、第1周的HAM-D分数,以及基线时情绪与焦虑症状问卷上的快感缺乏抑郁评分(0.12)。所有提到的预测因子都通过超参数优化被一致地选择。更多细节请参见在线补充材料的图S2和表S11。

多模态模型对舍曲林治疗的特异性
     关于模型对治疗的特异性,当在亚组B的安慰剂治疗患者上进行测试时,性能显著降低(p=0.01)(表2)。然而,与主要分析相比,仍有一半的模型取得了显著优于随机水平的性能,这些模型是基于第1层和第2层的治疗前和早期治疗对缓解的预测,以及基于第2层的早期治疗对有效的预测。一个例外是,在亚组B中使用第3层预测因子进行早期治疗对缓解的预测(bAcc=64%,AUROC=0.66)(图2,面板2),其性能优于在亚组A中的相同模型(bAcc=59% [SD=2.7],AUROC=0.62 [SD=0.05])。

     当在亚组C的舍曲林治疗的安慰剂无效者上进行测试时,平均预测性能不低于内部验证(p=0.06)。在亚组C中使用第1层预测因子预测缓解的性能(bAcc=64%,AUROC=0.68(图2,面板3))与在亚组A中的内部验证性能相似(bAcc=64%,AUROC=0.68)(图2,面板1),并且第1层和第2层的模型性能都显著优于随机水平。然而,在亚组C中使用第1层预测因子预测有效的性能(bAcc=56%,AUROC=0.56)比在亚组A中差(bAcc=65% [SD=4.1],AUROC=0.71 [SD=0.06])。

单模态建模
     多模态模型的平均性能显著优于所有单模态模型,除了基于早期治疗和早期治疗临床评估的缓解预测(图3)。统计结果列于在线补充材料的表S12中。11个性能显著优于随机水平的单模态模型包括:六个使用ASL的治疗前模型和五个使用临床评估数据的早期治疗模型(表2)。

图3. 多模态与单模态模型最佳交叉验证性能的箱形图
     箱体显示了两个四分位距,中线为中位数。星号标记了与多模态对应模型相比,显著(p<0.05)更差的单模态交叉验证结果。统计结果见在线补充材料的表S12。ASL=动脉自旋标记;AUROC=受试者工作特征曲线下面积;DWI=弥散加权成像;rs-fMRI=静息态功能MRI。

讨论
     我们证明了使用治疗前和早期治疗的多模态MRI及临床数据可以预测MDD的治疗反应。在安慰剂组和舍曲林治疗的安慰剂无效者上的验证表明,该模型对舍曲林治疗相对于安慰剂治疗具有特异性。我们的结果表明,具有强科学证据的预测因子是模型性能的主要驱动因素。最后,多模态预测优于大多数单模态方法,而使用ASL预测因子的模型,即使仅使用治疗前数据,也显示出最佳的单模态预测效果。

多模态建模
      与其他多模态研究相比,我们的结果证实了Patel等人和Leaver等人的积极结论。这些研究分别只有44和19名患者的小样本量,增加了其发现可能受到性能偏倚影响的可能性。最近,Sajjadian等人提出了一种使用加拿大抑郁症生物标志物整合网络(CAN-BIND-1)研究数据的方法。与该研究相比,我们的结果在相应分析上,无论是在bAcc还是AUROC方面都有所改进(治疗前有效预测:bAcc,65% vs. 60%;AUROC,0.71 vs. 0.60;早期治疗有效预测:bAcc,68% vs. 66%;AUROC,0.73 vs. 0.70)。这种改进在治疗前预测中比在早期治疗预测中更为明显。由于CAN-BIND-1的随访临床数据是在第2周而不是像EMBARC那样在第1周采集的,我们怀疑CAN-BIND-1的临床数据可能呈现出更大的早期治疗效应。由于两种方法在方法学上相似,我们改进结果的另一个解释是EMBARC中提供了ASL数据,而CAN-BIND-1中没有。我们的单模态结果证实了这一假设,表明仅ASL就具有显著的预测能力。

     我们进行了三项事后分析:首先,我们的发现与“留一站点”交叉验证结果一致(见在线补充材料的表S8),表明站点效应有限。其次,将替代分类器与XGBoost分类器进行比较,结果显示这些分类器也能够预测治疗反应,尽管性能水平较低(见在线补充材料的表S9)。最后,我们发现回归模型可以预测连续的结局分数(见在线补充材料的表S10和图S1)。

     与最近两项基于MRI的药物治疗反应预测的荟萃分析报告的预测性能相比,我们的方法在诊断优势比的自然对数(分别为2.46 [SD=1.10] 和 2.11 [SD=0.56])以及质量合格研究的平均bAcc(分别为68% [SD=10] 和 63% [SD=7])方面均表现更优。

      在定性评估模型的效用时,应考虑几个因素。首先,应注意的是,使用本研究中的准确率指标(平衡准确率),当有效率大于50%时,实际准确率会更高。AUROC >0.7可被认为是好的,具体取决于用途。在我们的案例中,我们的模型优于临床实践中目前使用的“试错”标准。因此,利用我们能够早期预测治疗效果的治疗计划支持工具所带来的好处,可能很快就会超过MRI扫描的成本。此外,我们的工作优于类似范围的研究。然而,治疗决策支持工具的临床有效性应在独立的前瞻性随机临床试验中确定。

     在临床实践中,可能也希望以降低敏感性(即在最终有效的患者中指示为无效)为代价,来提高对无效者的检出率。这将有助于更好地识别真正的无效者,以便及早转向另一种治疗,同时接受在可能对第二种选择性5-羟色胺再摄取抑制剂(SSRI)或5-羟色胺-去甲肾上腺素再摄取抑制剂有反应的患者中,出现较高但可接受的错误“无效者”分配率。最后,应研究使用MRI进行预测建模的性能下限,以平衡其带来的负担和成本。

多模态模型对舍曲林治疗的特异性
      在舍曲林治疗的安慰剂无效者(亚组C)中的结果与舍曲林治疗的训练集(亚组A)没有显著差异。相比之下,在安慰剂治疗的亚组B中的性能确实显著下降。这种对比表明,在预测舍曲林与安慰剂治疗反应方面存在一定的特异性。尽管如此,在亚组B中的外部验证仍取得了显著优于随机水平的性能,表明存在一些重叠。文献中提出的一种解释是,除了药理治疗效果外,舍曲林治疗部分是由安慰剂反应驱动的。需要进一步的研究来确定我们的方法对其他抗抑郁药的特异性。

单模态与多模态建模
     我们的结果表明,多模态模型的性能始终显著高于单模态模型。这支持了将神经影像数据与临床数据相结合可以改善治疗反应预测的观点。然而,有两种模态的模型确实表现得显著优于随机水平:仅使用ASL的治疗前模型和仅使用临床评估数据的早期治疗模型。这两种数据类型是精简治疗反应模型的主要候选。作为探索性分析,我们在在线补充材料的表S13中报告了这些模型的性能。尽管如此,我们的发现证实了整合多模态数据以提高预测性能的呼吁。

      尽管研究设计的差异限制了与其他研究的比较,但单模态模型的性能与以往的单模态研究相似(本研究vs其他研究)。这证实了以往研究取得的结果,也表明我们的多模态结果在其他研究人群中可能相似。Bartlett等人基于T1加权MRI预测了缓解(bAcc,53% vs. 51%;AUROC,0.55 vs. 0.59)。Korgaonkar等人使用基线弥散加权成像预测了缓解(bAcc,52% vs. 54%)。最后,Chekroud等人使用早期治疗的临床变量预测了缓解(bAcc,65% vs. 63%;AUROC,0.69 vs. 0.70)。

可解释性
     在基于神经影像的建模中,平衡预测性能与可解释性是一个持续的挑战。然而,鉴于即使是表现最佳的基于神经影像的模型也只显示出中等的预测性能,可能需要更加强调可解释性。因此,我们对特征重要性进行了事后探索,如图S2和在线补充材料的表S11所示。早期治疗反应和前扣带皮层(ACC)的灌注一直对我们模型的性能有贡献。ACC灌注是一个被广泛复制的治疗反应生物标志物,这一发现与先前在MDD中的工作一致。最近的一项荟萃分析发现,ACC在治疗结局中起着关键作用,因为它在腹侧情绪生成系统和背侧认知控制系统之间的相互作用中扮演着枢纽的角色。在此,SSRI被认为在改善这种腹侧-背侧控制方面发挥作用。1周后,我们观察到症状严重程度降低的重要性很高,这是一个已知的预测因子。出乎意料的是,海马体积——关于MDD治疗反应被最广泛复制的发现——并没有持续地做出贡献。一个可能的解释是,预测因子是单独选择的,而已有研究指出海马体积在治疗预测中的左侧化效应很强。同样,用rs-fMRI测量的默认模式网络中的连接性也没有持续地对我们的模型做出贡献。更多关于预测因子重要性的信息,请参见在线补充材料的图S2和表S11。

优势
     EMBARC试验的设计使我们能够通过三种方式增加我们结果的普适性。首先,EMBARC是现有的最大的多模态神经影像MDD数据集,而样本量已被证明可以减少性能评估中的偏倚。其次,数据是在四个站点使用来自不同制造商的3-T扫描仪采集的。我们使用标准软件包对数据进行了预处理和协调,以增加对新人群的普适性,并使用“留一站点”交叉验证来测试我们的结果。第三,我们在一个独立的研究组中进行了验证,而不仅仅是像大多数研究那样进行内部交叉验证。在一组独立的舍曲林治疗患者中,性能没有显著降低,这是我们方法普适性的一个积极指标。另一个优势是,本工作中的假设和方法在分析前都进行了预注册。预注册避免了因过拟合而导致性能高估,这种情况发生在数据分析后根据训练数据调整算法时。尽管对层级证据的预注册限制了对其他预测因子组合的探索,但它增加了我们结果的可重复性和有效性,因为预先指定的预测因子(第1层)有强有力的科学证据(系统综述或荟萃分析)支持。

局限性

     尽管研究设计提供了宝贵的优势,但也应承认一些局限性。首先,我们的结果仅限于从EMBARC研究中获得的数据进行的舍曲林治疗。在EMBARC研究中,没有关于对先前抗抑郁治疗反应的信息,而这些信息对于添加到未来的预测工具中可能很有价值。因此,我们的方法需要在更大量的外部数据、不同的抗抑郁药以及比随机临床试验中临床异质性更大的人群中进行进一步验证。在此之前,我们的结果应谨慎解读。据我们所知,目前不存在与EMBARC试验在相同时间点收集了相同多模态数据的数据集,可以进行这样的外部验证。其次,尽管排除患者并未显著影响人群特征,但排除未完成研究第一阶段的患者可能有利于依从性好的参与者的预测结果。第三,EMBARC研究的设计使我们能够在接受安慰剂(亚组B)和舍曲林(亚组C)治疗的相同患者身上验证我们的模型。然而,亚组C缺少了在研究第一阶段对安慰剂治疗有反应的亚组B患者。这种选择预计会对我们的结果造成偏倚。由于已知治疗反应部分由安慰剂反应驱动(38),因此可以预期亚组C的治疗反应率会降低,治疗反应预测性能会下降。然而,与亚组A相比,亚组C的有效率并未因此选择而受到负面影响(表1)。我们的结果也显示,与亚组A相比,亚组C的性能没有显著降低。因此,我们可以假设这种类型的选择偏倚没有影响我们的结论。最后,尽管基于任务的fMRI可能为多模态建模提供有希望的信息、,并同样为情境依赖的神经机制提供重要见解,但考虑到其在临床实践中扩展和复制的难度(51),我们排除了这个选项。因此,我们无法评估其在治疗反应预测中的潜在益处。

      我们在治疗前和早期治疗预测的性能之间没有发现显著差异。如果得到外部验证,早期治疗反应预测可能不需要第二次MRI扫描,从而降低成本和患者负担。由于我们的结果显示,单模态ASL模型在早期治疗时的性能下降,但在治疗前没有,而且我们事先决定在早期治疗时使用相对变化,而这种变化对生理变异很敏感,我们怀疑这个选择对于ASL预测因子来说不是最优的。为了克服这个局限,我们建议将绝对的ASL预测因子与早期治疗的临床预测因子相结合,以提高性能。其他改进选项包括整合来自其他来源的预测因子和利用新颖的分析方法,如规范建模。

总结

     总之,我们对EMBARC试验数据应用多模态机器学习方法的发现表明,使用脑部MRI和临床数据对MDD患者的舍曲林治疗反应进行治疗前和早期治疗预测是可行的,并且显著优于随机水平和大多数单模态模型。我们的结果还表明,我们的模型对舍曲林与安慰剂治疗具有特异性。我们发现ASL是最佳的单模态预测因子。通过额外的外部验证,这些发现将有助于在对MDD患者进行个体化临床舍曲林治疗时使用预测建模。

如需原文及补充材料请添加思影科技微信:19962074063或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询,目前全部课程均可报名且支持预存。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!

微信扫码或者长按选择识别关注思影
非常感谢转发支持与推荐

欢迎浏览思影的数据处理业务及课程介绍。(请直接点击下文文字即可浏览思影科技所有的课程,欢迎添加微信号:1996207406318983979082进行咨询,报名后我们会第一时间联系,并保留已报名学员名额):

Am J Psychiatry:使用多模态MRI和临床数据预测重度抑郁症的治疗反应

核磁及PET:

南京:

第四十八届磁共振脑影像结构班(南京,10.25-30)

第七十届磁共振脑网络数据处理班(南京,11.6-11)

第五十二届脑影像机器学习班(南京,11.20-25)

第五十九届扩散成像数据处理班(南京,11.27-12.2,新增DTI-ALPS)

第十八届扩散磁共振成像提高班(南京,12.11-15)

广州:

第五十一届脑影像机器学习班(广州,11.1-6)

第五十八届扩散成像数据处理班(广州,11.8-13,新增DTI-ALPS)

第一百五十七届磁共振脑影像基础班(广州,11.26-30)

第三十九届脑网络数据处理提高班(广州,12.15-20)

北京:

第四十九届磁共振脑影像结构班(北京,11.13-18)

第二十二届磁共振ASL(动脉自旋标记)数据处理班(北京,12.4-7)

第三十三届影像组学班(北京,12.11-16)

上海:

第二十五届小动物磁共振脑影像班(上海,11.12-16)

第五届PET(正电子发射断层成像技术)数据处理班(上海,11.29-12.4)

第一百五十八届磁共振脑影像基础班(上海,12.7-11)

第五十届磁共振脑影像结构班(上海,12.17-22)

第九届Surface based fMRI分析专题班(上海,12.25-29)

重庆:

第一百五十六届磁共振脑影像基础班(重庆,11.19-23)

第九届定量磁敏感成像(QSM)数据分析班(重庆,12.7-9)

脑电及红外、眼动:

北京:

第五十三届近红外脑功能数据处理班(北京,10.28-11.2)

第七十四届脑电数据处理入门班(北京,11.5-9)

第二十一届脑电信号数据处理提高班(北京,11.21-25)

第十七届脑电机器学习班(Matlab版,北京,11.27-12.1)

第一届睡眠脑电专题班(北京,12.21-24)

上海:

第十三届脑电连接与网络班(上海,11.5-9)

第五十四届近红外脑功能数据处理班(上海,11.21-26)

广州:

第二届脑电高级指标分析专题班(广州,11.15-19)

第六届近红外脑功能数据处理提高班(广州,12.5-9)

重庆:

第十四届脑电连接与网络班(重庆,11.10-14)

南京:

第七十五届脑电数据处理入门班(南京,12.4-8)

数据处理业务介绍:

思影功能磁共振(fMRI)数据处理业务
思影扩散加权成像(DWI)数据处理

思影脑结构磁共振(T1)成像数据处理业务

思影科技啮齿类动物(大小鼠)神经影像数据处理业务 

思影ASL数据处理业务

思影脑淋巴系统数据分析业务(WMH,FW-DTI,ALPS,PVS,gBOLD-CSF和脉络丛体积)


思影脊髓影像分析业务(功能,结构,DWI等)


思影PET数据分析业务

思影磁共振波谱(MRS)数据分析业务

思影表达谱分析业务

思影科技定量磁敏感(QSM)数据处理业务

思影科技影像组学(Radiomics)数据处理业务

思影科技深度学习(Deep Learning)影像组学数据处理

思影科技DTI-ALPS数据处理业务

思影科技灵长类动物fMRI分析业务 

思影科技灵长类动物脑结构分析业务(T1与DWI)

思影科技脑影像机器学习数据处理业务介绍

思影科技EEG/ERP数据处理业务


思影睡眠脑电数据处理业务

思影TMS-EEG数据处理业务

思影科技近红外脑功能数据处理服务 

思影科技脑电机器学习数据处理业务

思影科技脑磁图(MEG)数据处理

思影科技眼动数据处理服务 

思影科技微生物菌群分析业务 

招聘及产品:

思影科技招聘数据处理工程师(广州,北京,上海,南京,重庆)

BIOSEMI脑电系统介绍

目镜式功能磁共振刺激系统介绍

此处给个“在看”及“点赞”,让更多朋友关注