基于计算的药物-靶点相互作用(DTI)预测在加速药物发现和理解分子机制方面发挥着关键作用。传统方法往往难以应对生化数据的复杂性与规模,从而限制了预测精度。

针对这一问题,巴巴萨海布·安贝德卡博士理工大学的研究人员于2025年10月13日在《Scientific Reports》上发表文章,题为“A generative framework for enhancing drug target interaction prediction in drug discovery”。研究提出了一种生成式人工智能框架VGAN-DTI,将生成对抗网络(GAN)、变分自编码器(VAE)和多层感知机(MLP)相结合,以提升DTI预测性能。该系统通过优化创新性、合成可行性和预测准确性促进药物发现,确保可靠的DTI预测并推动数据驱动的药物研究。

背景

生成式人工智能模型,特别是生成对抗网络(GAN)与变分自编码器(VAE),已成为药物发现领域的变革性工具。这些模型能够生成具有现有化合物性质的新型分子数据,从而实现化学空间的高效探索,并提升药物-靶点相互作用(DTI)预测。VAE主要关注生成具有合成可行性的分子,而GAN则能够生成结构多样、具备药理特征的分子。尽管VAE能够有效捕获分子的潜在表示,但其生成的分布可能过于平滑,从而限制结构多样性。GAN通过对抗式学习进行补充,增强分子多样性、缓解模式崩溃,并生成具有化学合理性的全新分子。这种协同作用确保了精确的相互作用建模,优化了特征提取和分子多样性,从而提升DTI预测的准确性。将GAN与多层感知机(MLP)结合,可通过生成特征进一步提高DTI预测精度。

方法

研究提出一种先进的计算框架VGAN-DTI,用于进行准确的DTI预测,以简化药物发现流程,同时降低成本和缩短周期,框架如图1所示。研究的主要目标为,利用VAE生成分子结构的潜在表示与新型分子,用于靶蛋白相互作用预测;使用GAN生成真实且有效的分子结构,提高化合物效力;融合MLP,基于标注数据集优化DTI预测结果;在确保分子-靶点有效相互作用的前提下提升预测准确性。模型训练的关键优化参数如表1所示。

图1 VGAN-DTI框架

表1 VGAN-DTI模型超参数

数据

研究使用的数据来源于BindingDB数据库,包含丰富的小分子-蛋白结合亲和力信息。筛选得到约130万条记录,每条均包含PubChem CID、SMILES表达式、UniProt ID、蛋白序列以及GO注释。仅选取具有IC50值的记录,因为IC50是DTI分类任务中最常见且最具一致性的亲和力指标。从BindingDB数据集中提取的特征包括Morgan指纹、理化性质(如logP、分子量、氢键受体数、TPSA)、SMILES分子表达转换为数值嵌入格式以及图结构特征。

研究进行了系统的数据优化流程,如将分子结构转换为SMILES表示,计算Morgan指纹来提取关键化学特征与子结构,使用标准化SMILES和UniProt ID表征药物与蛋白,所有IC50统一转换为nM,去除缺失SMILES、蛋白序列或注释的记录以及重复或异常值。

为评估模型泛化能力,数据集划分为四种测试场景:1)Both seen:药物与蛋白均在训练集中出现;2)Drug unseen:新药物+已知蛋白;3)Protein unseen:新蛋白+已知药物;4)Both unseen:药物与蛋白均未在训练中出现。该划分模拟真实预测环境中遇到新化合物或新靶点的情况。

结果

VGAN-DTI框架在各项关键评估指标上均表现出色,如图2所示。这些结果充分证明了该框架的高鲁棒性与高精度,使其成为药物发现领域具有重要应用价值的工具。

图2 VGAN-DTI模型在多项评估指标的值

为评估其整体性能,选取三种常用基线模型进行对比。如表2所示,VGAN-DTI在所有指标上均优于现有方法。

表2 与SOTA模型对比性能

图3展示了四种模型的AUC-ROC对比,证明VGAN-DTI在DTI预测任务中表现最优。

图3 与SOTA模型对比

为验证各模型组件对整体性能的贡献进行了消融实验。每个模块均独立训练和评估,其训练损失收敛性与稳定性如图5所示。

VAE分子重构性能。VAE模型能够将与生物活性相关的特征编码至潜在空间(图4),从而生成多样化的分子结构。这些新分子的靶蛋白相互作用由MLP进行评估。VAE通过优化重构损失和KL散度获得高质量分子生成(图5a),使生成分子在保留生物活性潜力的同时与原始结构高度相似。结果表明VAE能有效生成具有潜在靶标作用的新分子结构。

图4 VAE学到的隐空间表示

GAN分子生成性能。GAN通过生成器与判别器对抗训练,生成更接近真实的分子结构用于后续的DTI预测。训练损失曲线逐渐下降(图5b),表明对抗学习过程稳定且有效。高性能表现归功于生成器持续提升分子质量与判别器对分子真实性的有效评估。

Sci Rep|VGAN-DTI:增强药物靶点相互作用预测的生成式框架

图5 训练损失曲线(a)VAE,(b)GAN,(c)MLP

MLP DTI预测性能。MLP作为最终预测模块,利用VAE和GAN生成的分子特征进行分类判断。训练过程表现出持续优化趋势(图5c)。结果验证了MLP在识别复杂的药物-靶点关系方面的高效性与可靠性。

讨论

交叉验证与泛化能力分析

为评估模型的稳定性与可靠性,研究采用五折交叉验证方法。数据集被划分为五份,每一折中使用四份进行训练,一份用于验证。对每一折记录准确率、精确率、召回率和F1值,并计算其平均值与标准差。如表3所示,结果显示模型具有高度一致性与鲁棒性。

表3 5折交叉验证结果

由于VGAN-DTI为研究提出并实际实现的模型,其性能指标基于五折交叉验证,因此结果以“均值±标准差”形式报告。相比之下,基线模型为已有方法,其性能数据多来自文献或标准实现,通常不提供标准差。因此,研究在不人为推测其波动范围的前提下进行公平对比。

图6 5折交叉验证结果

图6显示交叉验证结果,表明模型具备良好的泛化能力。较低的标准差反映其在不同数据子集中表现稳定,这对于模型在真实世界数据中应用至关重要。

错误分析

为深入了解VGAN-DTI的误判模式,研究进行了错误分析。模型整体误分类率为12%,主要原因在于阳性与阴性样本之间某些特征的高度重叠,如分子量、疏水性以及极性表面积。这些冗余与重叠特征可能导致预测不确定性,从而影响分类性能。图7展示了误分类样本关键特征的分布,可视化体现了其重叠区域。

图7 错误分析结果

特征重要性与可解释性

为评估模型的可解释性与特征贡献度,研究采用SHAP方法及敏感性分析,结果如图8所示。表4总结了SHAP分析中影响预测的关键特征,如分子量与疏水性,这些特征在模型判断中贡献显著。图8a为SHAP总结图,展示特征对预测结果的影响方向与强度,为模型应用提供重要解释依据。

表4 特征重要性结果

敏感性分析表明模型在输入数据轻微变化时表现稳定,如图8b所示,这表明模型具备良好鲁棒性,即使在噪声或数据偏差存在的条件下亦能保持一致预测。这种稳健性对于实际应用尤为关键。

图8 SHAP总结及敏感性分析

局限性与未来工作

尽管研究取得了令人鼓舞的结果,但仍存在若干局限。VAE和GAN性能对训练数据质量与多样性高度敏感,若数据存在偏倚或多样性不足,会限制化学空间探索并降低预测准确率。模型训练计算复杂度高,资源消耗大,亟需更高效的算法与硬件支持。模型可解释性仍是挑战,目前对其背后生物机制的理解有限,需引入更多可解释AI方法增强透明度与可信度。未来可融合多模态数据(如基因组、蛋白组数据)以构建更全面的DTI表征。同时还需重视数据隐私、模型偏见与AI医疗应用的伦理问题,确保其公平、安全地部署。因此,计算机科学家与生物学家之间的跨学科合作至关重要。将领域知识与技术创新相结合,可进一步提升模型性能、可解释性与伦理安全性,推动AI驱动的药物发现走向成熟与应用。

总结

研究提出的VGAN-DTI框架创新性地融合了VAE、GAN和MLP,在药物-靶点相互作用预测方面取得了显著突破。对数据质量和特征精准表征的重视,使模型具备良好的可扩展性与高效预测能力,从而优化了分子相互作用策略并促进新药候选物的发现。研究强调了生成式人工智能在扩展化学空间、加速药物研发等关键任务中的潜力。基于生成模型的计算方法不仅能够显著缩短药物发现周期,还能有效降低研发成本。未来研究应在更多多样化的数据集上验证该框架的泛化能力,并融合基因组、蛋白组等生物数据,以提升其在个性化医疗与药物发现领域的应用价值与实际影响力。

参考链接:

https:///10.1038/s41598-025-01589-9