源自风暴统计网:一键统计分析与绘图的AI网站

中国医科大学附属第一医院学者用10年回顾性数据,基于机器学习构建全肺切除术后并发症预测模型,发了二区,有点可惜!
这项研究样本量不小,共纳入16,368例接受手术的肺癌患者(训练集:11,458;验证集:4,910);最终结果也不错,最优模型:随机森林模型训练集AUC为0.898,验证集为0.752。
不过方法简单了点,单因素+多因素回归筛选变量,5种机器学习算法构建预测模型,并进行模型评估与比较的常规套路。
但是,让人不解的是,最终选择的最优模型为随机森林,但却提供了基于logistic回归的列线图,且未通过SHAP分析使机器学习黑箱模型变得可解释,有点说不通。
一起看看原文怎么解释的!

在胸外科手术中,减少术后心血管和神经系统并发症(PCNC)是提高手术后生存率的关键。
本研究旨在探讨影响PCNC的独立预测因子,构建机器学习模型,并为接受肺癌胸外科手术的患者建立PCNC预测列线图。
1.数据收集

回顾性筛选了2012年9月至2022年9月期间在医院 A、B 两个病区接受肺肿瘤胸外科手术的患者资料。

  • 中山院区的患者构成训练集(n=11,458)

  • 浑南院区的患者构成验证集(n=4,910)

研究样本与治疗资料来自医院电子信息系统。

2.电子病历缺失数据处理

  • 若某变量缺失比例>20%,则将该变量从最终数据集中剔除;

  • 若缺失比例<=20%,则采用均值插补法进行插补。

3.模型超参数设置

通过训练集中的十折交叉验证(10-fold cross-validation)选取。

4.特征筛选

为实现特征选择并降低数据维度,首先采用单变量logistic归对所有变量进行筛选

可惜了!中国学者10年数据只发了二区,方法上如何改进?

单变量分析显示,年龄、饮酒史、手术时长、术中肋间神经阻滞、术后PCA及麻醉插管方式与PCNC发生显著相关。在单变量筛选出上述六个变量后,我们补入麻醉药物用量相关变量(如舒芬太尼),因其为麻醉医师重点关注的因素。

将上述变量一并纳入多变logistic回归进一步筛选候选变量筛选结果显示,最终仅有六个变量与PCNC独立相关:年龄、手术时长、术中肋间神经阻滞、PCA 类型、气管插管方式及舒芬太尼用量。

对上述所有变量进行了多重共线性检验,方差膨胀因子(VIF)均<10。

最终,这六项独立因素被用于构建PCNC的预测模型。

5.构建机器学习预测模型

使用 R 软件构建多种机器学习模型,包括logistic回归、XGBoost、随机森林(Random forest)、LightGBM 与朴素贝叶斯(Naïve Bayes)。模型在训练与验证过程中重复 10 次抽样,以分析训练集与验证集指标的重要性,并据此选择最优模型。

6.模型评估与比较

通过计算受试者工作特征曲线(ROC)的曲线下面积(AUC)及特异度、敏感度、准确率、阳性预测值(PPV)和阴性预测值(NPV)来评估训练集与验证集中的模型效能。

结果显示,在训练集中,随机森林表现最好AUC=0.898(95% CI:0.892–0.904),敏感度0.905,特异度0.712,PPV=0.451,NPV=0.966。

在验证集中,随机森林和 LightGBM 同样表现良好,AUC 为0.752。

XGBoost 与logistic回归的结果表明,朴素贝叶斯的 AUC 值最低,但仍超过0.7,表明所有模型总体上均有令人满意的表现。

为五种模型绘制了校准曲线,发现在训练集与验证集中,各模型的校准曲线均接近理想线。

决策曲线分析(DCA)显示五种机器学习模型均具有良好的临床适用性。

7.构建列线图

由于基logistic回归的预测列线图直观且在临床中广泛使用,本研究在构建多种机器学习模型的基础上,同时开发了用于临床便捷应用的 PCNC 预测列线图。

老郑小评
这篇文章条理还是比较清晰的,不过还可以再改进。就我们前述提到的问题,研究者在文章中并未有过多的解释。
老郑曾经说过,如果机器学习预测模型差别不大,首推传统logistic回归。
模型选择是一个权衡的过程。在预测性能没有显著差异,差别不大的情况下,传统logistic回归的透明度和简单性通常是更负责任和更实用的选择。
本文也强调,由于基于logistic回归的预测列线图直观且在临床中广泛使用,所以额外构建了列线图。
在机器学习领域中,机器学习模型的“黑箱”特性阻碍了解释性,模型的可解释性一直备受关注,构建预测模型,探讨影响因素的文章中,基本上要结合SHAP分析。
本文对于最优随机森林预测模型,研究者并未进行可解释性分析,这点还是要注意,不然像是为了用机器学习而用机器学习。