急性口腔黏膜炎(AOM)是头颈部肿瘤(HNC)放射治疗过程中常见且严重的不良事件。碳离子放疗(CIRT)凭借其优越的物理剂量分布与较高的生物学效应(RBE),能在精准杀伤肿瘤的同时减少正常组织损伤,但部分患者在治疗过程中仍会出现2~3级的急性口腔黏膜反应。如何在治疗早期识别高风险患者,对于个体化防护与计划优化具有重要意义。
近日,来自日本群马大学重离子线医学研究中心(Gunma University Heavy Ion Medical Center)的孟祥迪博士构建了一个基于剂量体积参数与放射组学特征的机器学习模型,用于预测CIRT诱导的头颈部肿瘤患者急性口腔黏膜炎。该研究纳入了190例接受被动散射CIRT的HNC患者,建立了结合最大剂量(Dmax)与剂量特异性放射组学特征(RaVx)的双节点分类模型(Dmax50&RaVx Gy[RBE]-SVM)。该模型在训练集和测试集中的预测准确率分别达97.0%与96.5%,显著优于传统DVH模型。研究结果表明,剂量特异性放射组学可有效识别高剂量暴露下的低风险患者,为碳离子放疗中AOM的个体化风险评估和早期干预提供了新的量化工具。原文发表于Physics and Imaging in Radiation Oncology。
01
前言
约80%至100%的HNC患者在放射治疗过程中会出现不同程度的AOM。CIRT凭借其独特的布拉格峰效应,能实现精准的肿瘤剂量递送并减少正常组织受照,但临床数据显示,仍有约48%~65%的患者在CIRT期间发生2~3级AOM。现有CIRT相关AOM预测模型样本量有限,且仅依赖剂量–体积直方图(DVH)参数,难以反映个体黏膜结构及放射敏感性的差异。放射组学(radiomics)通过提取影像纹理特征,能够量化组织异质性,而机器学习(ML)算法可在高维特征中实现更精确的分类。为弥补传统DVH模型的不足,本研究提出一种整合DVH参数与剂量特异性放射组学(RaVx)ML的双节点模型,用于早期识别CIRT过程中发生≥2级AOM的高风险患者,从而实现个体化风险评估与治疗优化。
02
方法
1. 患者
研究纳入了2010年至2020年间接受CIRT的HNC患者190例并随机划分为训练集(70%,n = 133)和测试集(30%,n = 57)(见表1)。
表1. 患者特征(n = 190)
2. 碳离子放疗及AOM评估
CIRT计划由XiO-N系统制定。所有患者均接受被动散射碳离子放疗,总次数为16次,每周治疗4次。多数患者的总处方剂量为64 Gy(RBE);对于皮肤或黏膜受累范围较广的病例,处方剂量为57.6 Gy(RBE);而肉瘤患者的处方剂量为70.4 Gy(RBE)。治疗过程中每周根据《不良事件通用术语标准》(CTCAE,版本4.0)评估口腔黏膜反应。本研究的主要临床终点为2级及以上AOM,因其发病率较高且常需临床干预以防止进一步进展,故定义为高风险不良事件。研究考虑采用最大剂量(Dmax)或平均剂量(Dmean)作为DVH的代表性参数。在本研究开展前,我们对这两项参数进行了初步评估。结果显示,两者的分类准确率相近(Dmax:0.87 vs. Dmean:0.86),但Dmax具有更高的灵敏度(0.98 vs. 0.95),表明其漏诊≥2级AOM病例的可能性较低。此外,Dmax在既往CIRT–AOM的研究中也被广泛使用。因此,本研究选择Dmax作为主要剂量参数,用于描述口腔黏膜的剂量分布,并进行AOM的初步风险分层(见图1A)。
图 1. 研究设计和数据处理流程。(A) 按最大剂量阈值(Dmax)对患者进行分组;(B) 高剂量组(Dmax > 50Gy[RBE])患者的图像采集;(C) 感兴趣区域分割;(D) 特征提取;(E) 特征选择;(F) 模型开发与比较。缩写:RBE,相对生物学效应;SVM,支持向量机
3. 图像采集与口腔黏膜区域分割
治疗前的1–2周采集的模拟CT图像用于放射组学特征提取。感兴趣区(ROI)定义为CT图像中黏膜表面以下3 mm的区域,以尽可能更广泛的获取口腔黏膜(图1B)。该定义排除了口腔肌肉组织体积,但包括了颊黏膜、硬腭、唇内面、舌底、舌系带、舌缘、牙槽嵴、牙龈、软腭下表面及舌根的部分区域。口腔黏膜的勾画依据上述标准在MIM Maestro软件中完成。随后,通过将整个黏膜体积与不同剂量水平(10、20、30、40、50 Gy[RBE])的空间剂量分布进行相交,生成5个基于剂量的黏膜子区—剂量特异性粘膜ROI,以提取不同剂量–体积区域内的放射组学特征(图1C)。
4. 放射组学特征提取
不同于仅为数值形式的DVH参数(如Vx Gy[RBE]),从剂量特异性亚区提取的放射组学特征数量庞大,统称为“接受x Gy(RBE)剂量的口腔黏膜体积内的放射组学特征 [RaVx Gy(RBE)]”。共从6个ROI中提取特征,包括RaVtotal、RaV10 Gy(RBE)、RaV20 Gy(RBE)、RaV30 Gy(RBE)、RaV40 Gy(RBE)及RaV50 Gy(RBE)(图1D)。在特征提取前,对CT图像与ROI进行各向同性重采样,体素尺寸设为1 mm × 1 mm × 1 mm,采用最近邻插值法。放射组学特征通过PyRadiomics(版本3.1.0,Python 3.7.12)提取。所有图像类型均采用固定灰度间隔25 HU进行离散化。在原始特征的基础上,共应用11种图像处理与特征生成策略,包括使用σ为1.0和1.5 mm的高斯–拉普拉斯滤波器以捕获细节与粗略特征,以及基于coif1小波基的多尺度小波分解(PyWavelets v1.3.0),结合x、y、z三方向高低通滤波器的8种组合以计算多频段特征。每个ROI共提取1037个特征(图1D),包括14个形状特征、18×11个一阶统计特征及75×11个纹理特征。纹理特征包括24×11灰度共生矩阵(GLCM)、16×11灰度游程矩阵(GLRLM)、16×11灰度区块矩阵(GLSZM)、14×11灰度依赖矩阵(GLDM)及5×11邻近灰度差异矩阵(NGTDM)。各特征值经Z-score标准化处理。
5. 统计建模
本研究构建了一个两节点的分类模型,其工作流程见图1。
节点1:Dmax模型
在训练集中,通过ROC曲线获得的最大Youden指数确定口腔黏膜的Dmax阈值。为减少偏倚,采用1000次自助法(bootstrap)计算平均阈值,据此将患者划分为高剂量组和低剂量组(图1A)。
节点2:高剂量组的剂量特异性放射组学机器学习模型

在高剂量组患者(最大剂量>50 Gy[RBE])中,基于放射组学特征构建机器学习模型,以进一步预测≥2级AOM的风险。
从6个RaVx中提取的特征经单变量逻辑回归(LR)、随机森林(RF)及极端梯度提升(XGBoost)进行筛选,取三者的共同特征作为最终输入(图1E)。为减少特征冗余,对选出的共同特征进行Spearman相关分析,若某对特征的相关系数|ρ|≥0.7,仅保留单变量AUC值更高者作为最终特征子集。
选择SVM进行高剂量组患者分类(图1F)。由于特征空间复杂且数据呈非线性分布,选用径向基核函数(RBF)作为核函数。SVM模型的超参数通过网格搜索结合十折交叉验证优化。基于各RaVx选定特征,共构建6个SVM模型用于进一步评估。
双节点分类模型(Dmax&RaVx-SVM模型)
在最终的分类模型中(图1F),低剂量组患者被归为AOM低风险(节点1 Dmax模型);高剂量组患者则进一步经RaVx-SVM模型分类(节点2)。在高剂量组中预测为阳性的患者被判定为AOM高风险,其他患者仍归为低风险。
本研究共建立7个分类模型,包括1个Dmax模型和6个Dmax&RaVx-SVM模型。主要评价指标为分类准确率(图1F),并同时报告训练集与测试集的灵敏度、特异度、精确度及F1分数。测试集中采用1000次自助法(bootstrap)估算模型乐观偏差,以确定最佳模型。计算最优模型与其余6个模型间准确率差值(ΔAccuracy),并使用Mann–Whitney U检验比较差异。为减少随机分组带来的不确定性,并验证自助法结果的稳定性,另外进行了200次五折交叉验证。多重比较采用Bonferroni校正,所有统计分析使用R软件(版本4.4.0)完成。
03
结果
在纳入的190例患者中,未观察到4级AOM病例,其中61.6%(n = 117)的患者出现2级或3级AOM。在训练集中,0–1级AOM患者的口腔黏膜最大剂量(Dmax)中位值为34 Gy(RBE)(IQR:7.35–60.8),而2–3级AOM患者的Dmax中位值为63.5 Gy(RBE)(IQR:62.1–65.5),差异具有统计学意义(图2A,p < 0.001)。经1000次自助法(bootstrap)计算得到的Dmax平均阈值为50 Gy(RBE)(±3.8 Gy[RBE]),据此确定Dmax模型的分类阈值。以此阈值划分后,训练集患者被分为高剂量组(n = 97)与低剂量组(n = 36),模型的分类准确率为87.2%,在测试集中的准确率为86.1%。同时,基于Dmax 50 Gy(RBE)模型的分类显示,假阴性率为1.2%(n = 1),假阳性率为31.4%(n = 16)(图2A)。图2B–2F展示了从高剂量组患者RaV40 Gy(RBE)区域提取的放射组学特征的筛选过程。根据逻辑回归(LR,图2B)、随机森林(RF,图2C)及XGBoost(图2D)的结果,共提取出8个特征(图2E)。经相关性检验后,保留6个特征用于建立RaV40 Gy(RBE)-SVM模型(图2F)。通过网格搜索与交叉验证优化模型参数,最终惩罚参数C设为1.5,γ值设为1。
图 2. 接受 40 Gy(RBE) 的口腔黏膜体积的放射组学特征选择。(A) 确定用于将训练集区分为高剂量组和低剂量组的最大剂量阈值。(B) 高剂量组中 RaV40 Gy(RBE) 特征的单变量逻辑回归。(C) RaV40 Gy(RBE) 特征在随机森林分类中的重要性排序(Top 30)。(D) RaV40 Gy(RBE) 特征在 XGboost 分类中的重要性排序(Top 30)。(E) 逻辑回归、随机森林和 XGboost 的共同特征。(F) Spearman 相关性检验。
来自其他RaVx区域的放射组学特征采用相同的处理流程,最终共建立6个RaVx-SVM模型(见表2)。分别从RaVtotal、RaV10 Gy(RBE)、RaV20 Gy(RBE)、RaV30 Gy(RBE)、RaV40 Gy(RBE)和RaV50 Gy(RBE)中选取了2、1、6、3、6和4个特征。总体而言,所选特征主要来源于CT图像的小波变换。来自RaV30 Gy(RBE)和RaV40 Gy(RBE)的特征表现出较高的可重复性,而RaV40 Gy(RBE)与RaV50 Gy(RBE)的特征具有较高的区分能力,其平均AUC分别为0.82,范围分别为0.75–0.90与0.76–0.86。此外,RaV40 Gy(RBE)所选特征的平均MDA值最高(3.01,范围2.6–3.69),在特征重要性中排名靠前;但其增益指数低于RaV30 Gy(RBE)与RaV50 Gy(RBE)。相关性分析显示,所选特征与剂量相关的黏膜体积无显著相关性(|ρ|均 < 0.7)。
表 2. 用于构建 RaVx-SVM 模型的放射组学特征
将每个RaVx-SVM模型与Dmax50 Gy(RBE)模型结合,形成综合分类模型(Dmax50&RaVx-SVM模型)。表3展示了各分类模型的分类准确率。Dmax50&RaV40 Gy(RBE)-SVM模型表现最佳,在训练集中的准确率为97.0%,在测试集经1000次自助法验证的平均准确率为96.5%(95% CI:96.4–96.7)。此外,该模型在所有模型中具有最低的乐观偏差,值为0.5(95% CI:0.3–0.6)。在各自助样本中比较不同模型的准确率差异(ΔAccuracy)后发现,Dmax50&RaV40 Gy(RBE)-SVM模型显著优于其他所有模型(ΔAccuracy > 0,Bonferroni校正后p < 0.001)。在其他指标(包括精确度、灵敏度、特异度及F1值)上,该模型亦表现出良好的性能。
表3. 训练和测试集中模型的准确性评估
此外,200次五折交叉验证的结果验证了自助法分析的稳定性,两种方法在各项指标上的结果一致,总体差异均小于1%。图3A展示了Dmax50&RaV40 Gy(RBE)-SVM模型在CIRT治疗HNC患者中判定≥2级AOM风险的流程;图3B显示了基于该模型开发的网络计算器(https://dynmodel./RaV40_SVM/),可辅助临床对高剂量组患者进行进一步分层。
图 3. (A) Dmax50&RaV40 Gy(RBE)-SVM 模型;(B) SVM 网络计算器。
04
结论
本研究提出了一种两阶段分类模型——Dmax50&RaVx-SVM模型,用于预测接受CIRT的HNC患者发生2级及以上AOM的风险。该模型有效克服了传统DVH模型的局限性,能够更全面地反映口腔黏膜的异质性,从而提高分类的准确性。
研究结果表明,该分类模型在实现个体化AOM风险分层方面具有潜在的临床价值,可用于支持主动的治疗计划制定与早期干预,以减轻放射相关毒性。未来仍需开展前瞻性、多中心研究以验证并进一步优化该方法,从而确保其在临床实践中的广泛适用性。(质子中国 编辑报道)
投稿单位:群马大学重离子线医学研究中心
参考文献:Meng X, Ju Z, Sakai M, Li Y, Musha A, Kubo N, Kawamura H, Ohno T. Integrating dose-volume histogram parameters and radiomics-based machine learning to identify carbon ion radiotherapy-induced acute oral mucositis in patients with head and neck cancer. Phys Imaging Radiat Oncol. 2025 Sep 24;36:100842.