针对任意蛋白靶点的生物活性以及ADMET性质的优化,都是当今制药行业中先导化合物发现与优化阶段的核心任务。在药物发现过程中,若能以多维方式同时考虑这些性质,可在早期阶段更准确地评估化合物能否继续推进,从而实现更为理性的决策。基于此,许多研究团队开发了先进的计算模型。然而,即使采用最先进的算法,预测错误仍然难以避免。这种内在的不确定性显著影响着科学决策的可靠性,促使研究者不断开发能够同时提升预测准确性与不确定性量化(Uncertainty Quantification, UQ)能力的新方法。更高质量的预测不仅能减少错误判断,也能避免过早淘汰潜在的优秀药物候选物,从而显著提升药物研发成功率。
针对上述问题,赛诺菲-安万特集团的研究人员于2025年10月8日在《Journal of Chemical Information and Modeling》上发表文章,题为“Upgrading Reliability in Molecular Property Prediction by Robust Quantification of Uncertainty from Machine Learning Models”。在该研究中,作者系统分析了误差来源与多种主流UQ方法在分子活性数据集上的预测不确定性之间的关系。基于这些发现,提出了一种简单但强大且高度稳健的UQ方法GP-DNR。该方法在多种评估场景中均显著优于现有方法,并展示了其在探索性主动学习中的应用价值。
背景
以往研究的模型不确定性通常分为两类,即认知性不确定性与偶然性不确定性。两者的本质不同,需采用不同策略进行评估与应对。偶然性不确定性(又称不可约不确定性)来源于输入与输出关系中本质上的变化,如实验测量波动或分子描述符的局限性。认知性不确定性(又称可约不确定性)源自模型参数的经验估计与真实最优参数之间的偏差。通常认为,对于与训练数据相似性较低的分子,认知性不确定性更大。两种不确定性的减小途径不同。认知性不确定性可通过增加数据量缓解;偶然性不确定性则可通过提高实验精度或使用更具表达力的分子描述符来减轻。显然,针对预测不确定性的应对决策取决于主导不确定性的类型。例如,主动学习策略往往依赖认知性不确定性来指导样本选择,以便通过加入新数据提高模型性能。然而,二者并非绝对独立的概念。提高分子描述符的表达能力可能降低偶然性不确定性,却因维度增加而提升认知性不确定性。
评估不确定性量化方法的性能面临一个根本挑战,即缺乏明确的真实值。在实际应用中,研究者通常采用一种务实的策略,将模型预测值与实验结果的偏差作为不确定性的代理指标。这种做法契合药物发现的现实需求,在实际决策中,人们最关心的是预测结果与实验结果的差异程度。
结果
说明性示例
首先考察了由五个神经网络组成的集成模型(NN-ensemble)在一个简单一维函数上的预测及其不确定性表现(图1)。函数被分为三部分,区域I没有任何训练数据;区域Ⅱ、Ⅲ有训练数据,其中区域Ⅱ的函数变化更为剧烈(更粗糙)。在区域Ⅱ和Ⅲ中分别采样30个与300个等距点,用于训练神经网络集成模型,并在图1b、1c中给出了相应的预测结果与模型集成不确定性。
对于两组训练数据,模型在训练数据定义域之外(即区域I)表现均较差。对于小型训练集(30个样本,图1b),模型在粗糙的区域Ⅱ中表现较差,而在平滑的区域Ⅲ中能够较好地再现真实函数。相反,对于大型训练集(300个样本,图1c),模型在两个区域内均与真实值高度一致。
图1 简单一维函数的预测与不确定性
作者将某一中心分子周围的局部粗糙度定义为,以Morgan指纹计算的Tanimoto相似度为基础,统计与中心分子相似但在性质上存在显著差异的邻居分子比例。这一比值被称为不同邻居比(DNR)。图1d展示了小型训练数据集中所有样本的DNR分布。可见,粗糙区域Ⅱ的DNR值较高,而平滑区域Ⅲ的DNR值较低。在这一简单的玩具模型中,预测的DNR能够准确识别真实函数的粗糙区域,从而揭示了模型需要更多数据以提升性能的区域。
构效关系数据上的预测性能与误差模式
进一步训练了多种机器学习模型,用于预测七个靶点的分子活性,其中一个为制药公司内部专有数据集(FXa),其余六个为公开数据集,各数据集的分子数量见表1。
表1 各数据集中的分子数量
数据集被划分为训练集(80%)与测试集(20%),并采用以下四种常用划分策略:RDKit的MaxMinPicker算法(友好及非友好模式)、基于分子骨架的划分、随机划分。在友好模式下,首先选择训练集,以确保训练集在化学空间中均匀分布(包括化学邻域中的孤立样本)。在非友好模式下,首先选择测试集,使得最具多样性的化合物被分配到测试集中,从而构建一个对机器学习模型更具挑战性的场景。对于随机划分,重复实验五次,使用不同的随机种子,并报告性能指标的平均值。骨架划分则确保具有相同分子骨架的分子要么全部划入训练集,要么全部划入测试集。
为建立分子构效关系(SAR)模型,采用了多种机器学习方法,包括随机森林回归(RF)、高斯过程回归(GP)、图卷积神经网络(GCN)与贝叶斯神经网络(BNN)。GP回归能通过其预测方差提供预测不确定性的度量。RF模型则与一个辅助误差模型结合使用以进行UQ。本文采用的深度学习UQ方法包括模型集成(Ensemble)、蒙特卡洛Dropout(MC Dropout)、均值-方差估计(MVE)以及证据回归。结果总体而言,GP在不同数据划分方式下均表现最佳,RF的表现次之,基于GCN的方法与BNN表现相对较弱,其中Ensemble略占优势。
图2 DNR与结构差异性作为预测误差的主要来源
随后,探究了导致模型预测性能不佳的原因(图2)。将测试集分子分为具有训练集中邻居的分子与没有邻居的分子两类。不同的数据划分方法在不同程度上突出两种主要的误差模式:1)高DNR,表示局部构效关系的复杂性较高;2)无邻居,表示测试分子在训练集中缺乏相似结构。对所有模型与划分方式,66-80%的错误预测可归因于这两种误差模式。
进一步分析显示,不同划分方式下两种误差模式的贡献存在显著差异。友好划分由于划分设计保证所有测试分子在训练集中有邻居,因此无邻居误差模式不存在。随机划分少量误差由无邻居引起。骨架划分与非友好划分无邻居误差模式影响更显著。在非友好划分中,两种误差模式的平均FPR相近;而在骨架划分中,几乎所有无邻居的分子预测均错误。因此,四种不同的数据划分策略形成了四种特征鲜明的误差分布场景,为研究分子性质预测任务中机器学习模型的常见误差模式提供了系统框架。

不确定性量化方法的性能评估
作者提出一个量化的新方法GP-DNR。首先训练一个GP来学习训练数据中的DNR。随后,将模型预测得到的DNR与GP模型的固有不确定性(即其方差)相加,得到综合的不确定性指标。本文评估的所有方法在表2中作了简要总结。
表2 本文评估的不确定性量化方法
采用了四个能够反映不同方面能力的指标,Spearman秩相关系数、ROC AUC值、σ差值、期望归一化校准误差(ENCE)。前三个指标,数值越大表示性能越优,最后一个反之。表3-6总结了各数据划分方式下所有指标的平均值。
表3 基于预测绝对误差排序的UQ方法性能(Spearman秩相关系数)
表4 基于良好与不良预测分类的UQ方法性能(ROC AUC)
表5 基于良好与不良预测分类的UQ方法性能(σ差值)
表6 UQ方法的期望归一化校准误差(ENCE)
总体而言,GP-DNR在各数据划分下表现优于所有基线方法,且未发现任何方法在任一场景中超越它。从所有数据划分的平均结果来看,GP-DNR相较次优方法的改进幅度分别如下,ROC AUC提升约10%,秩相关提升约17%,σ差值提升约50%,ENCE改进约65%。此外,GP-DNR的性能在不同数据集与划分方式间波动最小,显示出最强的稳健性。
在友好划分中,Ensemble、MC Dropout与GP均表现失效,尽管此时所有测试分子在训练集中均有近邻,这表明这些方法无法捕获源于陡峭SAR模型不确定性。为进一步验证这一点,分析了Ensemble方法预测不确定性随DNR变化的分布。图3展示了残差与预测不确定性随DNR变化的分布。结果表明,残差分布随DNR增大而整体右移,但不确定性分布与DNR之间未表现出系统性相关性。
图3 Ensemble模型预测残差与预测不确定性随DNR变化的分布
主动学习
在友好划分的场景下,研究了基于不确定性引导的GP-DNR选择策略的表现。该场景可视为药物发现中先导化合物优化阶段的代表情形。具体而言,考虑以下实验设定,假设在一次单轮探索性选择中,可用于从化合物池中选择分子的实验预算有限。此阶段的目标是通过挑选部分化合物进行实验,提升模型在剩余化合物池上的预测性能,从而在后续的开发性阶段提高发现优质化合物的成功率。图4展示了模型在剩余化合物池上性能提升(以均方误差MSE 衡量)随预算变化的曲线。
图4 基于不确定性引导(GP与GP-DNR)与随机选择的主动学习性能
结果显示,GP-DNR在提升预测精度方面显著优于两种基线方法。对于若干数据集,仅添加10%的候选化合物即可观察到显著的MSE降低。相比之下,仅依靠GP不确定性引导的选择常常表现不佳,其性能与随机选择相当,甚至更差。将DNR信息加入GP不确定性后,模型的采样策略被引导至化学空间中此前采样不足的区域,从而在探索阶段显著提高了学习率与模型改进效率。
总结
在本研究中,作者系统评估了多种常用的UQ方法的性能,并分析了机器学习模型误差来源与分子活性数据中预测不确定性之间的关系。总体而言,当前UQ方法的表现仍存在显著的改进空间。为了应对多种方法在捕捉由高DNR引起的不确定性方面的不足,作者提出GP-DNR。该方法首先训练一个GP模型来预测该属性,随后将预测的DNR与GP模型自身的不确定性结合,产生了一种稳健的UQ策略,在所有数据划分中均表现良好,并且常常显著优于次优方法。其在探索性主动学习中的优异表现,即相比纯GP不确定性引导的选择,可实现更快的模型改进,进一步凸显了其实际应用价值。GP-DNR提供了一条在分子性质预测与药物发现过程中提升决策质量的有前景途径。
参考链接:
https:///10.1021/acs.jcim.5c00464