新思路!浙大学者结合机器学习方法“超级学习者”与logistic回归,发文一区

2025年6月27日,浙江大学第一附属医院学者在期刊《Journal of Advanced Research》(IF=13.0)发表了一篇题为:“Machine learning ensemble meets clinical practice: developing a real-world risk prediction model for metabolic syndrome using super learner and scorecard approaches的研究论文。
研究旨在开发一种超级学习者模型和多级风险评分卡,以提高代谢综合征(MetS)风险的预测能力,并为早期心血管风险的识别提供支持。
看了题目就觉得这篇文章的套路有点意思。
  • 首先,研究收集了来自中国浙江的共计 460,256 份健康检查记录,用于模型开发及外部验证。
  • 其次,利用大规模健康数据,研究者通过超级学习者模型准确预测代谢综合征风险。
  • 最后,通过特征选择确定的关键预测因素被用于开发基于逻辑回归的代谢综合征风险评分卡。
下面一起来解读一下这篇一区SCI论文!

研究设计与数据准备

研究者分析了浙江省德清县在 2018 年 1 月至 2023 年 12 月期间收集的基于人群的健康体检数据。
最终的分析样本包括分布在该县 13 个区域的 460,256 份记录。为了确保验证的准确性,保持在实际应用中的普遍适用性,研究者采用了随机分组设计
  • 10 个区域(共 344,925 例)用于模型开发;
  • 其余 3 个区域(共 115,331 例)则构成了外部验证集。

研究分两个阶段进行。

在第一阶段,开发并评估了一个集成的超级学习器模型,该模型整合了多种基础学习器,并包含了开发队列中所有可用的变量,且未进行特征选择。

在第二阶段,确定了关键预测因素,并基于逻辑回归模型构建了一个用户友好的代谢综合征风险评分卡,以方便在临床实践中直接应用。

超级学习者模型的开发与评估

1.潜在预测因子
研究者根据已知与代谢综合征(MetS)发生相关的因素(来自文献和临床专业知识),选择了潜在的预测因子。共纳入27个变量用于训练超级学习器模型,未进行额外的特征选择。
这些变量包括:人口学特征,如年龄和性别;生命体征,如心率和体温;生活方式因素,如吸烟状况和饮酒情况;以及实验室检测指标,如血红蛋白和丙氨酸氨基转移酶(ALT)水平。
预测变量中的缺失值通过链式方程多重插补法进行处理。

2.超级学习者模型的构建

研究者开发超级学习者模型,整合了超级学习器库中28个不同模型的预测结果

这些模型是通过结合六种基础模型类型并采用不同的参数配置生成的。

  • 6种基础模型:随机森林、贝叶斯广义线性模型、弹性网络正则化广义线性模型、多元自适应回归样条、广义可加模型和神经网络。

  • 超参数值是基于先前研究和实际性能考量通过手动调优选定的。

3.十折交叉验证

为了训练超级学习器模型,在开发队列中采用了10折交叉验证。

定义超级学习器模型中各分类器相对重要性的交叉验证系数显示,随机森林分类器发挥了重要作用,degree = 2和3的多元自适应回归样条也表现出很强的贡献。

4.超级学习者模型评估

研究结果显示,超级学习器模型展现出优异的预测性能,在开发队列中达到0.816的AUC值(95% CI = 0.814–0.817),在外部验证队列中达到0.810的AUC值(95% CI = 0.808–0.813)。

为全面评估超级学习器模型,我们进行了一系列检验。

(1)利用开发和外部验证两个队列,我们通过AUC和Brier评分等指标,将模型的性能与单一变量预测因子进行了比较。

结果一致证明了超级学习器模型优于单一变量预测因子。

(2)校准曲线与决策曲线

校准曲线进一步证实了模型的准确性,显示在两个队列中,模型的预测概率与观测结果高度一致。

此外,决策曲线分析凸显了超级学习器模型的临床实用性,揭示其在一系列阈值概率下均能带来显著的净收益。

(3)为增强可解释性,我们进行了SHAP分析。

分析表明,相比于男性性别,女性与更高的代谢综合征风险相关。此外,更高的BMI、ALT水平、白细胞计数和年龄均与代谢综合征风险增加密切相关。

(4)亚组分析

为了进一步评估超级学习器模型的稳健性,研究者基于特定特征进行了亚组分析,包括年龄、性别、婚姻状况以及就业状况。

结果显示,亚组分析证明了模型在各个亚组中的稳健性,其AUC值均约为0.8。

MetS风险评分卡的开发与评估

预测模型重于应用。在临床环境中,风险评分卡通过提供一个简化、易用的工具来显著提升优势,它有助于决策制定并提高预测模型的实用性。因此,研究者开发了MetS风险评分卡。
1.实施一系列特征选择方法,以精简纳入风险评分卡的特征。
Step1:首先采用了一种基于置换的特征重要性方法,利用超级学习器模型对变量进行排序;
Step2:计算了各特征对之间的皮尔逊相关系数(PCC),并通过热图可视化这些相关性。若两个特征的相关系数大于0.7,则保留超级学习器模型排序中重要性较高的特征,剔除另一个特征。
Step3:接下来,基于最小绝对收缩与选择算子(LASSO)回归、岭回归和方差分析(ANOVA)对每个特征进行排序,并利用增量特征选择(IFS)从生成的75(25×3)种特征组合中识别最优子集
研究发现,由LASSO和岭回归共同选出的十个特征几乎达到了0.804的最大AUC。增加特征数量并未导致AUC值显著提升。值得注意的是,LASSO和岭回归选出了相同的十个特征,这凸显了它们对于代谢综合征预测的相关性。

2.构建风险评分卡

研究者仅使用所选十个特征而非超级学习器中使用的完整特征集构建风险评分卡。

评分卡的理论基础是逻辑回归模型,在医学评分卡中,风险较低的患者被赋予较低分数,风险较高的患者则被赋予较高分数。经过校准,总分范围为0至100,包括基础分和各特征分箱的特定分数,以反映每个个体的整体代谢综合征风险

该评分卡采用41分作为基础分,并根据分箱结果分配各变量特定分数。

例如,BMI评分范围从-18分(≤21.6 kg/m²)到+18分(>26.2 kg/m²);白细胞计数评分范围从-8分到+5分;性别评分则为-6分(男性)或+5分(女性)。

3.通过该评分卡为每个样本计算个体得分,并与观测结果进行比较以评估预测性能。

  • 在开发队列中,评分卡的AUC为0.793(95% CI:0.791-0.794);

  • 而在外部验证队列中,其AUC为0.788(95% CI:0.785-0.791)。

与超级学习器模型相比,评分卡仅表现出极小的性能损失,这表明开发该评分卡所采用的方法是合理的。

4.为建立风险分层,研究者使用KS曲线对总分进行可视化。

更高的KS值表示模型在相应阈值下具有更好的区分能力。

结果显示,最大拐点出现在47分处,这凸显了其作为区分风险水平的最佳阈值。

对于任何接受测试的个体,较低的分数对应较低的代谢综合征风险,而较高的分数则表示较高的风险。

为提升临床可用性和标准化程度,总分范围被划分为五个明确的风险类别:极低风险(0-20分)、低风险(21-40分)、正常风险(41-60分)、高风险(61-80分)和极高风险(81-100分),以在临床可解释性与统计判别力之间取得平衡。

5.对风险评分卡进行评估,以确保其在临床环境中的实用性和清晰度。

风险等级(极低、低、正常、高、极高)进行了可视化呈现,并使用饼图展示每个风险等级内特征的分布情况

在每个亚组内,随着风险类别从"极高"向"极低"移动,被诊断为代谢综合征的个体比例逐渐下降。值得注意的是,女性和老年人在"极高风险"组中占比较大。

高风险状态在人口学和临床亚组中的分布进一步凸显了该评分卡的实用性。

总结

该研究成功构建了一个高性能且临床友好的代谢综合征风险预测系统,既保留了机器学习的高准确性,又通过评分卡实现了临床可解释性与易用性,为代谢性疾病的预防与管理提供了重要工具。

研究采用了新颖的方法,将一个超级学习器模型与一个具有临床可解释性的风险评分卡相结合。

超级学习器的优势在于其能够整合来自多个模型(包括传统模型和新型模型)的预测结果,这有助于避免依赖单一模型可能带来的潜在问题(该模型可能表现不佳)。通过整合多种模型,集成方法往往比单个学习器表现得更稳健,接近预测准确性的“性能上限”。

然而,在实际应用中,即使超级学习器的表现优于单个学习器,人们仍可能倾向于使用单个学习器,因为超级学习器的计算需求较大且缺乏可解释

为了应对这一挑战,我们引入了一个级联设计,该设计结合了一个超级学习者模型,然后是一个基于逻辑回归的风险记分卡。使用通过一系列特征选择过程确定的最具影响力的特征,该评分卡产生的 AUC 值略低但相当,以便于实际应用。

这是一篇方法扎实、目标明确、具有较强临床转化潜力的预测模型研究。其建模思路在“精度”与“可用性”之间取得了良好平衡。

【感谢阅读浙中大郑老师团队撰写的统计文章】