源自风暴统计网:一键统计分析与绘图的AI网站
回顾性筛选了2012年9月至2022年9月期间在医院 A、B 两个病区接受肺肿瘤胸外科手术的患者资料。
-
中山院区的患者构成训练集(n=11,458);
-
浑南院区的患者构成验证集(n=4,910);
研究样本与治疗资料来自医院电子信息系统。
2.电子病历缺失数据处理
-
若某变量缺失比例>20%,则将该变量从最终数据集中剔除;
-
若缺失比例<=20%,则采用均值插补法进行插补。
3.模型超参数设置
通过训练集中的十折交叉验证(10-fold cross-validation)选取。
4.特征筛选
为实现特征选择并降低数据维度,首先采用单变量logistic回归对所有变量进行筛选。

单变量分析显示,年龄、饮酒史、手术时长、术中肋间神经阻滞、术后PCA及麻醉插管方式与PCNC发生显著相关。在单变量筛选出上述六个变量后,我们补入麻醉药物用量相关变量(如舒芬太尼),因其为麻醉医师重点关注的因素。
将上述变量一并纳入多变量logistic回归进一步筛选候选变量。筛选结果显示,最终仅有六个变量与PCNC独立相关:年龄、手术时长、术中肋间神经阻滞、PCA 类型、气管插管方式及舒芬太尼用量。
对上述所有变量进行了多重共线性检验,方差膨胀因子(VIF)均<10。
最终,这六项独立因素被用于构建PCNC的预测模型。
5.构建机器学习预测模型
使用 R 软件构建多种机器学习模型,包括logistic回归、XGBoost、随机森林(Random forest)、LightGBM 与朴素贝叶斯(Naïve Bayes)。模型在训练与验证过程中重复 10 次抽样,以分析训练集与验证集指标的重要性,并据此选择最优模型。
6.模型评估与比较
通过计算受试者工作特征曲线(ROC)的曲线下面积(AUC)及特异度、敏感度、准确率、阳性预测值(PPV)和阴性预测值(NPV)来评估训练集与验证集中的模型效能。
结果显示,在训练集中,随机森林表现最好:AUC=0.898(95% CI:0.892–0.904),敏感度0.905,特异度0.712,PPV=0.451,NPV=0.966。
在验证集中,随机森林和 LightGBM 同样表现良好,AUC 为0.752。
XGBoost 与logistic回归的结果表明,朴素贝叶斯的 AUC 值最低,但仍超过0.7,表明所有模型总体上均有令人满意的表现。
为五种模型绘制了校准曲线,发现在训练集与验证集中,各模型的校准曲线均接近理想线。
决策曲线分析(DCA)显示五种机器学习模型均具有良好的临床适用性。
7.构建列线图
由于基于logistic回归的预测列线图直观且在临床中广泛使用,本研究在构建多种机器学习模型的基础上,同时开发了用于临床便捷应用的 PCNC 预测列线图。