本研究为回顾性研究,使用三类数据源:
-
eICU-CRD、MIMIC-IV合并作为模型构建与内部验证的推导队列,纳入 2008–2019 年间的 1429 名患者;
-
来自中国四所三级医院的电子病历作为外部验证队列,纳入 2016–2022 年间的 362 名患者。
2.特征筛选
选择了入院后首 24 小时内可获得的 22 个临床特征来构建预测模型。
为解决多重共线性问题,对四项预测任务分别进行了 Spearman 相关性分析。当两变量在 Spearman 相关性分析中高度相关(相关系数 > 0.6)时,会将与结局关联较弱的特征从数据集中剔除。
最终共保留 18 项特征用于模型开发。
3.构建机器学习预测模型
将 MIMIC-IV 与 eICU-CRD 数据集合并后,针对四项预测任务分别按 80:20 的比例随机划分为训练集与测试集(采用基于相应二分类结局变量的分层抽样)。
应用了 10 种机器学习算法构建多任务预测模型,包括逻辑回归(LR)、支持向量机(SVM)、决策树(DT)、随机森林(RF)、k 近邻(KNN)、极端随机树(ET)、梯度提升机(GBM)、自适应提升(AdaBoost)、极端梯度提升(XGBoost)和人工神经网络(ANN)。
为减轻过拟合,训练过程中采用五折分层交叉验证。超参数通过网格搜索与人工调整相结合的方法进行调优。
4.机器学习预测模型性能评估
模型性能以受试者工作特征曲线下面积(AUC)等指标进行评估。
-
对于 AKI 预测,随机森林(RF)模型表现最佳,其次为梯度提升机(GBM)。
-
对于病情严重度预测,RF 同样位列第一,其次为 GBM。
-
对于 RRT 预测,RF 仍为最佳,极端随机树(ET)略逊一筹。
-
对于死亡率预测,XGBoost 得到最高 AUC,其次为 AdaBoost。
5.SHAP法指导预测任务特征选择
使用 SHAP 值指导每项预测任务的特征选择。
-
从 18 个特征出发,按 SHAP 重要性排序逐步减少特征的数量,同时监测模型性能。
-
采用 DeLong 非参数检验比较 AUC,并在检测到性能出现显著下降时停止特征剔除。

最终模型的选择基于 SHAP 指导的特征缩减性能,在每项任务中:
-
完整的 18 特征模型显著优于极简的 2 特征模型(AUC 差值 ΔAUC = 0.067–0.139;均 p < 0.05)
-
但完整的 18 特征模型与 5 特征模型相比并无统计学显著优势(ΔAUC = 0.008–0.046;均 p > 0.1)。
因此,选取 5 特征模型作为最终模型并用于后续分析。
6.外部验证
在外部验证队列中,最终模型在各预测任务上均保持良好表现,AUC(95% CI)分别为:AKI 0.906(0.871–0.934)、病情严重度 0.856(0.815–0.890)、RRT 需求 0.852(0.811–0.887)和死亡率 0.832(0.789–0.869)。
这些结果支持模型在独立人群中的可推广性与潜在临床应用价值。
7.SHAP分析提供可解释性
为提高模型可解释性并量化各特征的贡献,采用 SHAP方法对特征重要性进行排序,从而缓解机器学习模型的“黑箱”问题。
SHAP 同时提供全局与局部的可解释性:
-
全局 SHAP 汇总每个特征对模型预测的总体贡献;
-
局部 SHAP 则识别对单个患者预测有影响的具体因素。
根据各特征的平均 SHAP 值对特征进行排序,如下图所示。
局部可解释性可以更清晰地说明模型如何对单个患者得出预测结果。
8.开发智能决策支持系统
为促进临床应用,我们基于最终模型开发了一款智能决策支持系统,提供网页版和安卓移动应用两种格式。这一步其实相当重要!
参考文献:Liu C, Shi J, Wang F, Li D, Luo Y, Yang B, Zhao Y, Zhang L, Yang D, Jin H, Song J, Guo X, Fan H, Lv Q. Development and validation of an interpretable multi-task model to predict outcomes in patients with rhabdomyolysis: a multicenter retrospective cohort study. EClinicalMedicine. 2025 Aug 21;87:103438. doi: 10.1016/j.eclinm.2025.103438.
郑老师统计团队及公众号
全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!
4️⃣GBD、NHANES、CHARLS医学数据库挖掘1对1R语言指导