吸收、分布、代谢、排泄及毒性(ADMET)评估是决定药物候选物临床成功的基础。传统实验方法虽具有可靠性,但资源消耗大,而传统的计算模型则缺乏稳健性和泛化能力。近年来,机器学习(ML)通过解析复杂的结构-性质关系,极大推动了ADMET预测的发展,为这一领域提供了可扩展、高效的替代方案。

针对ADMET预测任务,安徽中医药大学以及圣约翰大学的研究人员于2025年10月4日在《Drug Discovery Today》上发表综述文章,题为“Bridging data and drug development: Machine learning approaches for next-generation ADMET prediction”。文章系统梳理了当前最先进的方法,包括图神经网络、集成学习、多任务学习框架,以及面向多模态数据整合和算法优化的新策略,这些方法旨在提高预测精度和转化应用价值。通过减少药物研发后期的失败、支持临床前决策,并加速更安全、更高效药物的开发,基于ML的ADMET预测展示了人工智能在重塑现代药物发现和开发中的变革性作用。

背景

药物候选物的ADMET特性是决定其临床成功与否的关键因素。理想的ADMET性质控制着化合物的药代动力学(PK)和安全性特征,直接影响生物利用度、治疗效果以及获得监管批准的可能性。具体而言,吸收决定药物进入全身循环的速度与程度;分布反映药物在组织和器官中的分布情况,影响治疗靶点效应及非靶向作用;代谢描述药物的生物转化过程,主要由肝脏酶介导,影响药物半衰期与生物活性;排泄促进药物及其代谢产物的清除,影响作用持续时间及潜在蓄积风险;而毒性则是评价不良反应及整体人体安全性的核心考量因素。这些性质共同决定了药物候选物的临床可行性。

随着大数据分析和ML技术的迅猛发展,用于ADMET预测的计算模型不断涌现,逐渐成为早期药物发现中不可或缺的工具。基于ML的方法,从特征表示学习到深度学习(DL)和集成策略,已在建模复杂活性方面展现出卓越能力。借助大规模化合物数据库,这些算法实现了高通量预测并显著提高效率。然而,由于生物系统具有非线性和高维特性,ADMET预测仍然极具挑战性。当前许多模型依赖单模态数据输入,限制了泛化能力,而深度学习架构虽然具备强预测能力,却常被视为黑箱,阻碍了机制层面的解释性。因此,整合多模态数据源,如分子结构、药理特征和基因表达数据,以及提升模型可解释性,已成为ADMET研究的关键前沿方向。

药物的ADMET特性是一系列涉及多器官和生理系统的动态级联过程。这种相互作用对药物的疗效、安全性及潜在毒性具有决定性影响,如图1所示的多维QT延长模型即为典型示例。该模型展示了胃肠道渗透性、体循环分布、肝脏首过代谢、肾脏清除及hERG通道抑制如何共同影响药物在体内的行为。

图1 ADMET跨器官动态过程机制分析

基于机器学习的ADMET建模方法

为了系统整合ML在ADMET预测中的应用,表1对关键方法进行了分类总结,概述了支持药代动力学与毒理特征高效计算评估的算法平台。

表1 ADMET预测工具

基于特征表征的ADMET预测

在过去几十年中,研究者已开发出多种用于ADMET预测的分子描述符。这些描述符将分子的理化性质、拓扑结构、三维构型及子结构片段等特征进行数值编码,通常表示为定长特征向量,可直接用于ML模型构建ADMET预测。由于计算效率高且易于实现,基于描述符的方法至今仍是该领域应用最广泛的策略之一。

分子指纹(FPs)将分子结构特征编码为抽象的、适用于机器学习的表示形式,从而将复杂的化学结构转化为可用于建模的输入特征。这种方法能够系统地预测药理性质、毒理反应及其他生物行为。常用的分子指纹包括FP2、MACCS keys以及ECFPs。

近年来,基于分子图的ADMET预测方法受到广泛关注。如图2b所示,该方法将分子表示为图结构,其中节点代表原子,边代表化学键。分子图的规模和复杂度仅由原子数和键数决定,无需大量预定义描述符。这种直接的结构表示支持端到端的性质预测模型,提高了建模效率和灵活性。

图2 基于分子指纹和分子图的方法

ADMET预测方法已从传统的描述符与指纹方法发展到基于分子图的建模策略。尽管描述符指纹方法在特征提取和效率上具有优势,但容易造成信息损失,且对复杂分子间相互作用的泛化能力有限。分子图方法能够直接建模原子与化学键结构,提高预测性能与灵活性。但仍需解决语义表达不足、过度依赖大规模标注数据、泛化能力有限等挑战。未来研究可聚焦于自监督学习、增强语义特征提取以及基于知识指导的预训练框架。

基于深度学习的ADMET预测方法

近年来,随着深度学习(DL)的快速发展,多任务学习(MTL)在ADMET预测中得到广泛应用,为药物设计与优化提供了全新方法与工具。MTL是一种通过共享表示同时处理多个相关任务的机器学习技术,可提升模型性能与训练效率。图3b为其基本框架。基于定量构效关系(QSAR)和定量构性关系(QSPR)的ADMET预测方法通过分析化合物分子结构与其药代动力学性质之间的关系实现预测。相关计算流程如图3c所示。通过统计学方法或ML模型,QSAR/QSPR建立分子特征与药物行为之间的定量联系,可用于预测多种ADMET属性。

图3 MTL基本架构及QSAR/QSPR建模过程

Drug Discov Today|连接数据与药物开发:用于下一代ADMET预测的机器学习方法

大量研究表明,先进计算方法显著提升了ADMET关键属性的预测准确性。然而,药物行为在复杂生物系统中的多样性仍为模型优化带来挑战。未来研究方向可能聚焦于提高模型可解释性、可扩展性以及与实验数据的深度融合,从而进一步推动药物发现与开发的创新。

基于集成学习的ADMET预测方法

集成学习将多个基础学习器(如决策树、支持向量机、神经网络等)的预测结果进行融合,以构建更强大、更稳健的预测模型。其核心原理在于聚合多个弱学习器的输出,形成优于各个组成模型的统一模型。已成为ADMET预测模型准确性和泛化能力的一种有效策略。通过整合多种算法或分子表征方式,集成方法能够有效解决药物研发中的核心问题,例如数据量有限、模型不确定性高以及在化学空间中泛化能力较差等。如图4a所示,基于集成学习的ADMET预测通常通过融合在不同特征集或数据子集中训练的多个基模型,从而利用模型多样性并减少单一模型带来的偏差。

图4 基于集成学习方法的框架图

ADMET预测的临床应用

ADMET预测模型已从早期药物筛选中的辅助工具,发展成为临床精准医疗的核心技术之一,尤其用于个体化给药、治疗优化及特殊患者管理。可预判药物与代谢酶或其他药物的相互作用,降低不良反应风险,推动处方从试错模式向个体化用药转变。在药物发现前期,虚拟筛选与ADMET预测推动了候选优化及药物递送系统的创新。ADMET预测已成为临床药物开发的基础技术,为毒性规避、剂量优化与个体化治疗提供支持,并在如阿哌沙班等成功药物中得以验证。未来,AI与多组学技术的深度整合将进一步推动临床转化,通过融合基因、环境等多维患者数据,实现更精准、更适应性强的治疗方案。这将不仅提升疗效,还能最大限度减少不同患者中的不良反应。

ADMET预测的挑战与机遇

关键挑战

数据异质性与集成难题。将ML应用于ADMET预测的主要障碍之一是数据来源广泛且异构,分布于ChEMBL、PubChem等多个数据库。数据格式不一致、记录不完整以及缺乏标准化,使得数据整合与全面分析变得复杂。研究指出,这些数据库中的理化性质数据常与口服药物实际的ADMET特征存在偏差。提高数据质量、互操作性及模型预测性能的关键在于实验方法与数据格式的标准化。

模型可解释性困境。例如基于SMILES序列的Transformer模型利用自注意力机制捕获长程依赖,优于传统方法,但此类模型本质上仍是黑盒,决策过程难以追溯结构-活性关系,且SMILES难以完整表达分子拓扑与空间特征,限制了模型的化学合理性。为解决上述问题,研究逐渐转向GNN,通过显式编码原子、键及拓扑特征,将AUC提升至0.85以上。尽管如SHAP、GMFU等解释工具可部分揭示模型决策依据,但其后处理性质易引入噪声或过度简化复杂特征,仍存在性能与解释性之间的平衡难题。

计算成本与数据稀缺问题。高计算成本是ADMET模型发展面临的主要障碍之一,尤其对中小企业与科研机构而言。数据稀缺问题在如心脏毒性等细分领域尤为突出。hERG毒性等标签数据获取成本高且数量有限,限制模型的可靠训练。研究表明,迁移学习、元学习和主动学习可有效缓解数据不足问题。

新兴机遇

多模态机器学习因其突破单一模态局限,在精准医疗领域迅速崛起,尤其在神经系统疾病和肿瘤学中表现突出。多模态框架通过整合异构数据源显著提升预测精度,同时改善模型可解释性。依托跨模态对齐技术、标准化数据转换流程及基于元数据的动态映射机制,研究者有效解决了ChEMBL与PubChem等数据库数据格式不一致的问题。多源数据的系统化集成为构建更可靠、高效及透明的ADMET预测体系铺平了道路,有望加速药物研发进程与个体化医疗模式的落地。

对黑箱模型进行事后解释容易延续低质量实践甚至引发社会伦理问题,因此,人工智能的研究重点正转向从源头构建可解释模型架构(XAI)。在ADMET预测中,未来发展需依赖具备以下能力的模型架构,如支持因果推理而非相关性预测,能嵌入药理学领域知识,决策步骤透明、可追溯。

图5 LLM驱动的药物性质预测框架

ADMET直接决定药物的安全性与有效性。以ChatGPT、Gemini及生成式AI(如Sora)为代表的大语言模型(LLMs)正展现超越传统方法的潜力。然而,LLMs仍存在明显局限,如幻觉问题导致生成虚假或不可验证信息,决策过程缺乏透明性,在高度监管的医学领域尤为敏感。因此,构建可验证、可解释、具备不确定性控制的LLM体系是该领域未来的关键方向。

机器学习驱动的ADMET模型能否可靠应用,关键在于明确其适用域(AD)严格量化预测不确定性(UQ)。AD界定了模型能提供可信预测的化学与生物空间,超出该域的预测常伴随较高误差或虚假的安全信号。UQ则用于应对模型预测的内在局限性。将UQ贯穿于ADMET预测流程已被公认为提高模型可靠性、支持临床决策的关键,其主要作用体现在优先级筛选、剂量优化以及监管沟通中。

参考链接:

https:///10.1016/j.drudis.2025.104487