随着机器学习的爆火,公共数据库联合机器学习几乎席卷了各大刊!但随着方法的滥用,高分文章越来越少,让人感慨这种组合是否还有发文意义?!
糖尿病(DM)是全球性的重大健康负担,患病率持续攀升。同时,全氟和多氟烷基物质(PFAS)作为广泛存 在且持久的环境污染物,一些流行病学研究提示PFAS暴露可能与2型糖尿病(T2D)风险增加相关, 但现有结果存在矛盾。
2025 年6月 23日 , 南京中医药大学附属淮安中医院 学者 用 NHANES 数据库, 在 期刊 《 Ecotoxicology And Environmental Safety 》 (环境科学与生态学二区 ,IF=6.1) 发表了一篇题为 :“Interpretable machine learning insights into the association between PFAS exposure and diabetes mellitus ” 的 研 究论文。
本研究旨在利用机器学习(ML)方法分析PFAS暴露与DM风险之间的关联,开发预测模型,并识别关键PFAS化合物及其非线性效应。
研究团队基于 美国 国家健康与营养调查(NHANES)2003-2018年 数据,经过 纳排,最 终 纳入了 10,471 名具有 血清PFAS浓度 (如PFOA、PFOS、PFNA等) 数据的 参与者。 其中 1327 名(12.7%)为DM患者。
研究将NAHNES 数据随机分为训练集(80%)和独立测试集(20%), 以 可解释的机器学习为核心, 构建了 12种ML模型。随后, 利用SHAP值和部分依赖分析(PDP)评估PFAS的贡献及非线性效应,并通过 LOWESS平滑曲线 识别关键阈值。
此外,还开发了交互式网络计算器,用于评估个体DM风险。
主要研究结果
研究利用12种ML算法,结合PFAS暴露数据,开发了DM的预测模型。结果显示, LightGBM 在预测PFAS相关DM风险上表现最佳 。
图2 LightGBM模型中按重要性排序的前10个特征
部分依赖图(PDP)结果揭露了PFAS与DM风险之间的关联。其中, PFOA和PFDE与糖尿病风险呈负相关,而PFOS、PFNA和MPAH呈正相关。
并且, 在低 PFOA 水平下, PFDE、PFOS、MPAH 和 PFNA 显示出轻微的协同作用,这与 DM 风险增加有关。
但随着浓度的增加,作用减弱,PFOA 在降低 DM 风险方面起主导作用。
图4 PFOA和其他PFAS对DM风险的协同作用的二维部分依赖图。颜色梯度表示预测的DM风险,颜色越深表示风险越低,颜色越浅表示风险越高
此外,SHAP和LOWESS分析进一步证实了PFOA与DM风险的非线性负相关, 阈值为 2.48 ng/ML ,低于该阈值时,DM 风险显著降低。
综上 所述, 研究首次 使用机器学习揭示 PFAS 暴露与 DM 风险之间的关联,将 PFOA 确定为最关键的 PFAS,与 DM 风险有明显的非线性负相关。
选题在手,SCI我有!郑老师团队的NHANES一对一R语言指导课程, 不仅 提供专业的一对一耐心指导, 承诺包教包会, 还会为您提供优秀选题建议!
另外,现在报名还会附赠 NHANES Online平台两年的使用权!
我们将为您分享 更多公共数据库的高分发文思路和统计小技巧!