Journal of Neurooncology杂志 20256月 13日在线发表美国Miami Cancer Institute的Sreenija Yarlagadda , Yanjia Zhang , Anshul Saxena,等撰写的《评估结果和基于机器学习的模型来预测立体定向放射外科治疗小的脑转移瘤后局部失效风险。Assessment of outcomes and machine Learning-based models to predict local failure risk following stereotactic radiosurgery for small brain metastases》(doi: 10.1007/s11060-025-05092-z. )。

简介:

我们评估了立体定向放射外科(SRS)治疗小的完整脑转移瘤(SBM)(≤2 cm)的结果,并开发了机器学习(ML)算法来预测局部失效(LF)的概率。

脑转移瘤(BM)的发病率一直在增加,已知影响10-40%的实体瘤患者。随着常规使用磁共振成像(MRI)进行监测,现在在无症状患者中更早诊断出较小的病变;因此,越来越多的患者选择非手术方法,如立体定向放射外科(SRS)作为最终治疗方法。对于小的脑转移瘤(SBM),传统上定义为最大尺寸≤2cm的病灶,建议单独使用单次SRS治疗作为安全有效的治疗方法。虽然脑损伤的剂量效应关系已经很好地建立起来,但处方剂量的选择往往随病变的大小和治疗的病变总数而变化(因为整体脑剂量较高)。

RTOG9005确定≤2 cm肿瘤的最大耐受剂量为24 Gy,然而,临床实践中使用了20-24 Gy的变化,并在实践指南中进行了描述。一些研究报道,在处方剂量范围内,单独使用SRS治疗的1年局部控制率为56-99%,并且随着剂量的降低,局部控制率有降低的趋势。由于协变量和患者数量的信息有限,先前开发脑毒性线性模型以确定最佳剂量的尝试并未取得压倒性成功。

在本研究中,我们在一个综合机构队列中对接受20Gy、22Gy或24Gy治疗的SRS治疗SBM的结果进行了比较分析,以确定现代的最佳剂量,重点是利用人工智能(AI)生成的模型,这些模型已被纳入不同级别的医学风险预测、诊断和成像,以帮助临床决策。机器学习(ML)是人工智能的一个子领域,专注于开发发现数据模式并预测结果的算法。这项工作的一个关键目标是开发基于患者相关、疾病相关和治疗相关因素的ML模型,以预测局部失效(LF)的风险,并建议最佳剂量。

方法:

纳入2017年1月至2022年7月连续接受SRS治疗的SBM患者。倾向得分匹配(PSM)与相关因素,以增强平衡比较。采用变量选择和三时变广义估计方程(GEE)建立预测模型。

数据采集

经机构伦理审查委员会批准,2017年1月至2022年7月期间,使用伽玛刀®(瑞典斯德哥尔摩Elekta AB,)接受单次SRS治疗的完整SBM患者被纳入研究。没有至少一次随访影像学检查的患者被排除在外。回顾电子病历,并记录基线特征,包括年龄、性别、种族、SRS治疗时的Karnofsky一般表现状态评分 (KPS)、原发疾病的组织学部位、颅外疾病的状况和负担、脑病变的位置、既往SRS史、BM总数和接受的全身治疗(化疗、靶向治疗、免疫治疗)。

MRI采用3-T MRI扫描仪(MAGNETOM Skyra, Siemens Healthcare, Erlangen, Germany)。根据机构方案,患者在治疗后48小时内接受SRS专用治疗定位MRI,需要MPRAGE序列(从2020年2月开始,所有患者也需要3-D T1 SPACE序列)。这些由神经放射影像学家、放射肿瘤学家和神经外科医生组成的多学科团队进行评估,他们确认在治疗计划MRI上看到的病变。每个病变的总肿瘤体积(GTV)作为MPRAGE序列的增强,没有使用额外的临床靶体积(CTV)或计划靶体积(PTV)扩大。为了解释单次治疗中转移瘤数目增加对整体脑剂量的贡献,制度实践是随着病变总数的增加而减少处方剂量:通常≤10个病变为24 Gy, 11-20个病变为22 Gy, bb0 – 20个病变为20 Gy。这些剂量按覆盖GTV的≥50%等剂量线规定,并以99%的最低可接受靶覆盖率进行优化。剂量学变量(SRS日期、剂量、肿瘤体积、每个SRS疗程治疗的病变数、病变最大尺寸、处方等剂量线、靶最大剂量、使用框架或面罩固定)从Leksell GammaPlan治疗计划系统(Elekta AB, Stockholm, Sweden)获得。

SRS治疗后的机构随访计划包括治疗后8周的临床访问和随后每2-3个月的监测MRI扫描,随访时间越长,频率越低。根据神经肿瘤学反应评估(RANO)标准的标准和阈值,根据每个病变定义LF。放射性坏死(Radiation necrosis, RN)定义为SRS治疗区域出现新的或增大的T1增强,借助灌注成像或光谱等先进MRI技术排除肿瘤复发。远处颅内功能失效(DIF)被定义为脑内出现新的转移灶或除SRS治疗外的病变进展。总生存期(OS)从SRS日期测量到死亡日期或最后一次随访日期。

统计分析

使用描述性统计描述和总结患者的基线特征,比较三种剂量(20 Gy、22 Gy和24 Gy),分类变量使用卡方检验,连续变量使用Kruskal-Wallis检验。格雷检验用于比较三个处方剂量组中LF、RN和DIF的累积发病率,死亡是一个竞争的危险因素。以95%可信区间(CI)计算各剂量组与LF相关的危险比(hr)。缺失的值被替换为中位数。p值≤0.05认为有统计学意义。采用倾向得分匹配(PSM)来减小方差,平衡不同处方剂量组间的样本数。在PSM中调整年龄、病变最大尺寸、病变总数、KPS和病变位置。由于有3个不同的剂量组,我们对它们进行两两匹配:20 Gy和22 Gy;20 Gy和24 Gy;22Gy和24Gy。PSM后,数据集运行随机分为训练集(80%)和测试集(20%),基于SRS疗程。

考虑到连续变量与处方剂量和方差的相关性,选择方差最大的前4个变量与处方剂量,采用广义估计方程(GEE)建立预测模型。这是基于来自训练集的每个时间点(6个月,1年和2年)的访问ID聚类。通过这种方式,GEE通过指定一个相关矩阵来显式地模拟同一患者单次就诊中观察结果之间的相关性。最终GEE模型的LF预测是基于训练集模型风险率的最佳性能得出的最佳阈值。使用Python 3.12进行统计分析。

数据记录

【文献快递】评估结果和基于机器学习的模型来预测立体定向放射外科治疗小的脑转移瘤后局部失效风险

在测试集上对模型进行评估,并通过曲线下面积(AUC)值、准确度、精密度、f1评分、灵敏度和特异性来评估模型的性能,以获得全面的视图。AUC表示模型区分正类和负类的整体能力,接近1表示模型性能越好。尽管“准确性”提供了对正确性的一般度量,但是我们合并了额外的度量来评估模型。考虑到LF的职业不平衡,仅靠准确性就可能产生误导。F1评分用于平衡精度和灵敏度。

结果:

358个SRS疗程的235例患者中,有1503例SBM可分析。与20 Gy (25.3%, 95% CI: 18.1-34.7%)相比,24 Gy (5.9%, 95% CI: 4.2-8.2%)或22 Gy (7.7%, 95% CI: 5.3-11.0%)治疗的病变的1年精算累积率较低(p < 0.001)。与20 Gy相比,22 Gy和24 Gy与LF风险降低63%和74%相关(HR: 0.37;95% ci: 0.24-0.57;p < 0.005, HR: 0.26;95% CI: 0.17-0.39;P < 0.005)。所生成的模型可以推荐最佳剂量,每个剂量在6个月,1年和2年的个体化LF百分比概率,最小AUC为0.75。1年模型的AUC(0.88)、准确度(88%)和特异性(91%)最高,2年模型的灵敏度最高(89%)。

358个SRS治疗疗程中接受治疗的235例患者中,1503例SBM符合研究标准。整个队列的中位年龄为65岁(四分位数间距[IQR]: 55-73),中位KPS为90 (IQR: 80-90), 61.2%为女性。最常见的原发肿瘤是肺癌(60.7%)和乳腺癌(15.8%)。总的来说,297个(19.8%)病灶接受20 Gy, 442个(29.4%)病灶接受22 Gy, 764个(50.8%)病灶接受24 Gy。患者基线特征详见表1。三个处方剂量组在KPS、种族、性别、病程SRS、颅脑疾病状况和负担、病变叶等方面均相同,但在年龄、原发部位、病变总数和GTV大小方面存在差异。

评估结果

中位随访10个月,45例患者发生138例(9.2%)LF事件。整个队列的中位局部无故障生存期为10个月(IQR: 4 – 23个月),20 Gy组为4个月(IQR: 2-8个月),22 Gy组为16个月(IQR: 6-28个月),24 Gy组为13个月(IQR: 5-22个月),p<0.01。图1a显示了三个剂量组的存活率。与20 Gy (25.3%, 95% CI: 18.1-34.7%)相比,24 Gy (5.9%, 95% CI: 4.2-8.2%)或22 Gy (7.7%, 95% CI: 5.3 – 11.0%)治疗的病变的1年精算累积率较低(p<0.001)。与20 Gy相比,22 Gy和24 Gy处方剂量与LF风险降低63%和74%相关(HR: 0.37;95% : 0.24-0.57;p<0.005, HR: 0.26;95% CI: 0.17-0.39;分别为p < 0.005)。37例患者发生50例(3.5%)RN事件。虽然在剂量组之间观察到RN概率的数值差异,但这没有统计学意义(图1b)。20 Gy组中位远端颅内无衰竭生存期为3个月(IQR: 2-5个月),22 Gy组为4个月(IQR: 2-7个月),24 Gy组为5个月(IQR: 2-12个月),p<0.001。整个队列的中位OS为14.5个月(IQR: 5-29个月),20 Gy组为9个月(IQR: 4-21.2个月),22 Gy组为14个月(IQR: 5-29个月),24 Gy组为16个月(IQR: 6-29个月),p=0.41。

预测模型的生成

PSM后,共纳入128例患者,共167个SRS治疗疗程,共891个病灶,用于模型生成。每个剂量组包括297个病灶。补充表1给出了PSM前后的变量分布,可以看出PSM有效地平衡了各剂量组的病变数量,并保持了变量之间的相似分布。将匹配的数据分成80%用于训练和20%用于测试,训练集有744个病灶(133个SRS课程)。补充图1给出了所有变量的相关热图,以显示成对相关性。表2总结了按方差排序的连续变量。考虑到这些变量的方差和相关性,选择年龄、KPS、病变总数和GTV体积进行模型生成。

预测性能

3给出了6个月、1年和2年的GEE模型预测LF的评价结果。总的来说,这些模型用不同的指标展示了不同的性能。1年模型的AUC(0.88)、准确度(88%)和特异性(91%)最高,2年模型的灵敏度(89%)最高。然而,这三种模型的最小AUC为0.75,精度为67%。图2使用Receiver Operating描述了模型性能的图形表示。

讨论:

在这个大型单中心研究系列中,我们比较了3种推荐的单SRS治疗剂量的结果,分别为– 20 Gy、22 Gy和24 Gy。我们的研究结果表明,与22和24 Gy相比,20 Gy与LF的风险明显高。自最初的RTOG 9005研究确定24 Gy阈值以来,SBM的最佳单剂量一直是一个有重大争议和兴趣的话题,最大耐受剂量尚未达到,但研究者不愿排除评估更高剂量。Mohammadi等评估了3034例SRS治疗的SBMs的结果,并确定与较低处方剂量19-23 Gy或15-18 Gy相比,24 Gy是一个重要因素(HR 1.84;p=0.01)影响局部控制。Redmond等对56项研究进行了汇总分析,以评估肿瘤控制概率的预测因素,并报道了24 Gy与18 Gy相比,1年局部控制率为95%,>为85%。多个独立研究也报道20Gy与12个月局部控制率70%或更低相关。先前的系统综述包括11项研究,使用单或分次立体定向放疗治疗病变,包括2厘米至5厘米。他们报告了1年局部控制率作为剂量函数的显著变化,并且至少40 Gy的BED12(转化为20 Gy)是获得至少70%的1年局部控制率所必需的。虽然我们的研究结果与本系统综述一致,但我们也观察到随着剂量逐步增加而进一步改善,能够区分22 Gy和24 Gy的长期随访差异。这些剂量已在以前的临床试验中使用(即N0574),但在实践中观察到显著变化;因此,在目前可用的全身治疗的现代时代,这应该是推荐的标准。

在我们的数据中,病灶特异性RN的总体低发生率(3.5%)可归因于严格遵守剂量限制,MRI和治疗之间的时间安排,并通过避免额外的CTV或PTV边缘来最大限度地减少正常组织暴露。先前的一些研究发现,使用 20Gy 的剂量有高的毒性风险。然而,其他研究报道病变大小(> 1cm)和位置是RN的独立预后因素,而不是处方剂量>。虽然我们观察到24 Gy的RN发生率增加,但没有统计学意义(HR: 1.18, 95% CI: 0.49-2.85, p=0.71)。两组之间缺乏统计学意义可能是由于RN的总发病率较低,需要进一步的长期评估。由于剂量递增在精心挑选的患者队列中是有益的,而不是完全基于病变总数的决定,我们的目标是开发一种ML算法,训练各种患者相关、疾病相关和治疗相关的因素,从而为患者提供最佳的个体化剂量。

我们有一个数据集,有多转移的患者和一个子集随着时间的推移发展成新的病变,这些患者接受了重复疗程的SRS治疗。为了消除这些有价值的数据,我们根据SRS过程对病变进行了分组,并选择了GEE方法,因为它解释了聚类数据中的相关性,并且组内相关性的鲁棒性使我们能够更好地解释数据中的依赖性。虽然在诊断出新的脑转移瘤时,人口统计学数据保持不变,但就颅外疾病的状况和负担而言,患者可能处于不同的疾病发展轨迹,并且在不同时间点使用的全身治疗可能存在差异,这可能会影响结果。通过显式建模相关结构,GEE有助于提供比传统模型(如逻辑回归[23])更可靠的标准误差和参数估计。在模型创建的优化过程中,为了将预测概率转换为类标签,我们从训练集中选择了一个最优阈值- 6个月、1年和2年模型分别为9%、14%和10%。如果患者的风险估计百分比概率超过该阈值,则模型将在该特定时间点指示失败预测。该模型考虑了所有3个时间点的预测,提出了最终剂量建议。图3描述了模型之间界面的表示,使其更加用户友好。计算出的LF概率百分比也提供给医生以做出有临床意义的决定。如果患者的估计生存期为1年,则根据在相关时间点预测的百分比概率做出临床决定,而不是模型的一般建议。此外,特定时间点的风险百分比将有助于定制适应风险的后续成像,以及时诊断预期的故障。虽然3个模型在不同指标上的表现不同,但AUC范围在0.75到0.88之间,准确率范围在67到88%之间,表明具有良好的预测性能。先前的研究尝试基于放射组学的局部控制预测,包括从MRI序列中提取几何和纹理特征,以及水肿、肿瘤边缘的异质性等特征,作为最佳的预测生物标志物。然而,成像设备、设置和处理技术的差异可能导致提取特征的不一致,从而影响基于放射学数据的预测模型的可靠性。神经网络需要使用图形处理单元来完成预测,这可能是时间和资源密集型的

近年来,多项研究也将重点放在结合影像组学和临床数据来提高模型的预测性能。这些模型的AUC范围为0.79 ~ 0.88,准确率为78 ~ 83%。与这些不同的是,我们研究中开发的模型更容易理解,具有可比的性能,当然可以纳入临床环境。这些模型的强大预测性能可归因于大样本量和倾向评分匹配的使用,这有助于平衡组间协变量并减少偏差。虽然一些深度学习模型可以成为强大的预测器,但它们的复杂性往往导致缺乏可解释性。在产生有临床意义的预测的背景下,我们打算创建更多可破译的模型。年龄、KPS、病灶总数、靶病灶体积等变量是确定的预后因素。使用标准变量的透明度可以培养信任,并使其具有临床可操作性。然而,这些模型在平衡精度和灵敏度方面受到限制,可能是由于数据中LF的比例失调。这些模型所依据的数据的回顾性可能会限制研究结果的普遍性。计划对这些模型进行前瞻性验证,并将进行优化以提高可靠性。通过整合更细粒度的患者数据和更长时间的随访,计划继续努力优化这些模型,以提高其预测能力。

结论:

所建立的ML模型可以预测LF与剂量的关系,有助于临床决策选择合适的SBM剂量,优化肿瘤控制效果和安排适当的随访。

本研究中开发的ML模型为改善SRS的结果提供了一条有希望的途径。重要的实际意义包括根据个体化因素建议最佳剂量,医生对治疗结果的实际估计,并相应地优化随访成像。虽然测试集中良好的预测性能非常令人鼓舞,但它们需要前瞻性验证以确保可靠性。这是我们发展个性化剂量测定的第一步,打破了传统的千篇一律的方法。