引言

随着机器学习的爆火,公共数据库联合机器学习几乎席卷了各大刊!但随着方法的滥用,高分文章越来越少,让人感慨这种组合是否还有发文意义?!
其实,方法没有对错,只是你没有找对创新选题罢了!
同款思路,郑老师团队能帮您轻松实现,欢迎联系~
糖尿病(DM)是全球性的重大健康负担,患病率持续攀升。同时,全氟和多氟烷基物质(PFAS)作为广泛存在且持久的环境污染物,一些流行病学研究提示PFAS暴露可能与2型糖尿病(T2D)风险增加相关,但现有结果存在矛盾。

2025年6月23日南京中医药大学附属淮安中医院学者NHANES数据库,期刊Ecotoxicology And Environmental Safety(环境科学与生态学二区,IF=6.1)发表了一篇题为:“Interpretable machine learning insights into the association between PFAS exposure and diabetes mellitus究论文。

本研究旨在利用机器学习(ML)方法分析PFAS暴露与DM风险之间的关联,开发预测模型,并识别关键PFAS化合物及其非线性效应。

本公众号回复“ 原文”即可获得文献PDF等资料

研究团队基于美国国家健康与营养调查(NHANES)2003-2018年数据,经过纳排,最纳入了10,471名具有血清PFAS浓度(如PFOA、PFOS、PFNA等)数据的参与者。其中 1327 名(12.7%)为DM患者。
研究将NAHNES数据随机分为训练集(80%)和独立测试集(20%),可解释的机器学习为核心,构建了12种ML模型。随后,利用SHAP值和部分依赖分析(PDP)评估PFAS的贡献及非线性效应,并通过LOWESS平滑曲线识别关键阈值。
此外,还开发了交互式网络计算器,用于评估个体DM风险。

主要研究结果

现况调查+机器学习还有意义吗?中国学者这篇6.1分文章给出了答案

研究利用12种ML算法,结合PFAS暴露数据,开发了DM的预测模型。结果显示,LightGBM在预测PFAS相关DM风险上表现最佳
其中,PFOA是PFAS中最重要的关键预测因子。
图1 12中ML模型预测DM风险的ROC曲线
图2 LightGBM模型中按重要性排序的前10个特征

部分依赖图(PDP)结果揭露了PFAS与DM风险之间的关联。其中,PFOA和PFDE与糖尿病风险呈负相关,而PFOS、PFNA和MPAH呈正相关。

图3 LGB模型中不同PFAS的部分依赖图

并且,在低 PFOA 水平下,PFDE、PFOS、MPAH 和 PFNA 显示出轻微的协同作用,这与 DM 风险增加有关。

但随着浓度的增加,作用减弱,PFOA 在降低 DM 风险方面起主导作用。

图4 PFOA和其他PFAS对DM风险的协同作用的二维部分依赖图。颜色梯度表示预测的DM风险,颜色越深表示风险越低,颜色越浅表示风险越高
此外,SHAP和LOWESS分析进一步证实了PFOA与DM风险的非线性负相关,阈值为2.48 ng/ML ,低于该阈值时,DM 风险显著降低。
图5 SHAP分析
图6 带有LOWESS曲线的SHAP散点图
综上所述,研究首次使用机器学习揭示 PFAS 暴露与 DM 风险之间的关联,将 PFOA 确定为最关键的 PFAS,与 DM 风险有明显的非线性负相关。

NHANES一对一R语言指导课程

选题在手,SCI我有!郑老师团队的NHANES一对一R语言指导课程,不仅提供专业的一对一耐心指导,承诺包教包会,还会为您提供优秀选题建议!

另外,现在报名还会附赠NHANES Online平台两年的使用权!

记得点个小小的关注👇

我们将为您分享更多公共数据库的高分发文思路和统计小技巧!