药物发现是一个耗时且资源密集的过程,迫切需要创新的计算工具以加速从实验室研究到救命药物的转化。虽然已有商业软件可用,但面向更广泛科研群体的、完全免费的综合虚拟筛选平台依然稀缺。且多数现有工具往往仅关注虚拟筛选的单一环节,如分子对接或QSAR预测,而均未能提供一个将经典的基于结构方法与现代机器学习方法相结合的完整、可引导的工作流程。

为填补虚拟筛选在可及性集成性方面的关键空白,雅盖隆大学与Selvita研究团队于2025年7月29日在《Journal of Chemical Information and Modeling》上发表了最新研究成果。

文章提出集成活性预测机器学习与传统分子对接的综合性在线平台Qsarna,用于简化虚拟筛选工作流程。平台采用基于片段的生成模型,能够探索具有期望药效团特征的新化学空间。用户可以与他人共享结果,并可直接在平台内查看对接构象。在案例研究中,成功为单胺氧化酶B(MAO-B)发现了三种具有纳摩尔级活性的全新苗头化合物,并通过实验检测加以验证。值得一提的是,Qsarna提供简洁直观的网页界面,几乎不需要计算背景知识,极大降低了使用门槛,使得不同背景的科研人员均能便捷开展高效的虚拟筛选工作。

Qsarna平台链接: 

https:///

背景

在现代虚拟筛选中,将分子对接等基于结构的方法与相似性搜索等基于配体的方法,以及预测式与生成式机器学习模型相结合,已成为黄金标准。这种协同策略既能发挥各方法的优势,又能弥补各自的不足,从而为候选化合物提供更稳健、更可靠的预测,并促进有前景的新化学实体的生成。

近年来出现了一批AI驱动的平台以简化药物发现早期流程。例如,Chemistry42集成40余种生成模型并结合基于配体与基于结构设计流程,能够对分子性质与可合成性进行精细控制。DrugFlow提供了集分子对接、QSAR、ADMET预测和虚拟筛选于一体的易用环境,适合非专业用户使用。MolProphet专注于可访问的AI驱动药物发现平台,具备口袋预测、从可购买构建块开始的分子生成及合成规划功能。然而,这些工具大多为商业软件,需要许可才能使用,从而限制了学术用户的可及性。尽管已经存在多个分子对接、QSAR建模和ADMET预测的在线平台,以及药物设计类移动应用(MedChem Game)展示了工具的潜力,但这些方案均未能提供一个将经典的基于结构方法与现代机器学习方法相结合的完整、可引导的工作流程。现有的软件往往需要用户具备较高的计算化学专业水平,包括理解复杂的参数设置、文件格式转换及结果解读。此外,缺乏明确的虚拟筛选流程指引,可能导致工具的使用效果不佳,从而错过潜在的药物候选分子或生成不可靠的预测。因此,结合AI模型与传统虚拟筛选方法、并能引导用户完成全流程的易用集成化平台,仍是该领域的迫切需求。

基于上述需求,作者提出了将机器学习与基于结构方法相结合的网页平台Qsarna(QSAR navigator)。该平台为虚拟筛选提供端到端支持,从初始化合物库管理到候选分子筛选全流程覆盖,同时为药物发现各环节的研究人员提供友好的用户界面。网页提供的工具向学术研究人员免费开放,免除了本地计算资源的需求,推动了先进方法的普及。在单胺氧化酶抑制剂的案例研究中,与其他方法相比,Qsarna成功提高了识别潜在药物候选分子的效率。

软件

Qsarna是一个基于Django框架、由Python 3实现的应用程序。用户上传的所有化合物库及分析结果在内的数据存储于PostgreSQL数据库中,并定期备份。非结构化的分子数据(如对接构象与蛋白结构)以SDF和PDB文件格式保存;训练好的机器学习模型则以二进制文件格式存储。所有计算量大的任务均由Celery队列处理,每个任务的状态可在任务队列页面查看。应用支持从本地安装到企业级云基础设施的灵活部署选项。本地部署可使用预配置的Docker容器,确保不同系统间环境一致。云端实现依托Amazon Web Services(AWS)(图1)。

图1 Qsarna部署选择

平台支持邀请多位用户协作,共同添加化合物库、分析筛选结果及开展后续实验。所有这些功能均可通过主项目导航栏访问,以网格平铺的形式呈现(图2)。

图2 Qsarna功能概览

方法

Qsarna为苗头化合物识别提供三大核心工具。(1)分子对接,一种传统的虚拟筛选方法;(2)基于活性数据优化苗头化合物质量的QSAR模型;(3)基于片段的生成式分子设计,允许用户探索已知分子之外的化学空间。通过在分子对接结果或实验活性数据上训练QSAR模型,可以优化对接分子的优先级,减少假阳性并揭示不易察觉的构效关系。而基于片段的生成式连接模块能够创造性地探索化学空间,发现传统基于配体筛选可能忽略的受体。

分子对接

分子对接是一种基于结构的虚拟筛选方法。Qsarna采用基于AutoDock Vina的对接软件 Smina。在定义新的对接流程时,用户可以调整对接参数,例如构象搜索的穷尽程度、生成的构象数量以及待对接互变异构体的数量。此外,用户还可以在应用中通过蛋白可视化工具指定结合口袋,该工具会实时显示对接边界框。在进行分子对接前,所有配体都会自动预处理,包括质子化状态计算(OpenBabel)、互变异构体、立体异构体和低能构象生成(RDKit)。

为评估Qsarna平台的虚拟筛选能力,为三种结构多样的蛋白靶标构建了诱饵数据集:细胞周期依赖性激酶2(CDK2)、多巴胺受体D3(DRD3)和单胺氧化酶B(MAO-B)。诱饵化合物库取自DUD-E数据库,筛选标准为每个活性化合物匹配50个诱饵。诱饵的选择基于与活性化合物在cLogP、分子量、氢键供体与受体数量、可旋转键数量等理化性质上的相似性匹配。Glide 对接计算在Schrödinger Suite v14.1.138中执行,并结合其配体准备流程。Smina对接则在Qsarna框架内进行,采用自动化的配体准备流程,包括几何优化、互变异构体枚举以及质子化状态分配。额外的变体版本还包含立体异构体生成,用于评估立体化学多样性的影响。

JCIM|Qsarna:用于药物发现的智能化学空间导航在线平台

图3 针对三种蛋白靶标的诱饵实验曲线绘制。Qsarna Smina指的是在Qsarna中经过配体准备流程后运行的Smina算法。

由图3可知,与商业软件Glide对比时,Qsarna的对接性能在DRD3与MAO-B靶标上表现相当,其中Smina在MAO-B测试中略占优势。然而,在CDK2虚拟筛选实验中,Glide的表现显著优于Smina。

基于配体的活性预测

化合物库也可以通过机器学习QSAR模型搜索新的活性化合物其方法参考了Cieślak等人的研究。Qsarna集成的AutoML工具可构建三类机器学习模型:随机森林、支持向量机和人工神经网络。这些模型可利用Morgan 指纹、Avalon 指纹、MACCS keys或RDKit分子描述符。在训练模型前,用户需选择至少100个具有实验或计算标签(如IC_50值或对接得分)的化合物,系统会自动构建数据集并将其划分为训练集、验证集和测试集。模型会在一个或多个数据划分上自动训练,并搜索最优超参数。模型可用于预测连续活性指标或基于阈值定义的二分类活性标签。训练完成后,模型会显示并附带性能评估结果。这些模型可直接在虚拟筛选模块中调用,用于对大规模、无活性标注的化合物库进行基于配体的虚拟筛选。对于极大型化合物库,可先训练QSAR模型预测对接得分,从而替代传统的全库对接,仅需对原始数据的一个子集进行对接并用于模型训练,大幅加快筛选速度。

对于所有项目,Qsarna还提供多种分子性质的ADMET预测器,包括血脑屏障通透性、hERG结合、Caco-2渗透性、生物利用度和logD。所有模型均使用Therapeutics Data Commons公共数据,并采用与Qsarna内置相同的机器学习模型与分子描述符进行训练。对于所有新加入的化合物,这些性质都会自动预测,从而便于先导化合物识别与多参数优化。经实验评估,Qsarna中的ADMET模型性能与其他公开可用的网络软件(ADMETlab与admetSAR)相当(图4)。

图4 ADMET模型性能比较

基于片段的设计

该模块遵循基于片段的药物发现原理,允许用户连接或扩展已知具有结合能力的小片段。模型CRET仅使用来自公共数据库的已知连接基团(linkers)连接这些片段,从而提高生成分子的可合成性。通过利用实验确定或对接得到的片段,该工具可以探索其周围的化学空间,构建有针对性的候选化合物库。片段连接会利用片段在结合口袋中的位置,确保关键相互作用得以保留。随后,生成的分子可以通过对接模块再次对接,优先保留片段接近其初始位置的构象。

为展示基于片段的生成模块的实用性,建立了一个基准测试,其中将100对片段对接到MAO-B5-HT2A蛋白的结合口袋中。这些片段取自Enamine片段库。将Qsarna中实现的CRET 模型与其他深度学习模型进行了比较,结果见表1。

表1 对两个蛋白靶标连接方法比较

DeLinker生成的有效连接基团数量更多,但无法提供预测结合构象的三维信息;相比之下,DiffLinker和CRET均能在结合口袋中生成连接基团,其中CRET生成的分子在唯一性和可合成性方面表现更佳。实验结果表明,这种方式使用户能够围绕低活性片段扩展化学空间,并创建在公共化合物数据库中不存在的新候选化合物的针对性化学库。

案例研究

作者利用Qsarna平台独立完成一次单胺氧化酶(MAO)抑制剂的虚拟筛选与实验验证流程。首先,将ChEMBL数据库中所有具有MAO-A/MAO-B测定Ki或IC50值的化合物全部上传至 Qsarna。平台随后自动对这些数据进行预处理,包括去除重复项和盐的对离子,并将配体中和。将回归问题转化为二分类问题,将Ki/IC50<100nM的化合物归为正类。此外,还合并了来自多种生物的活性测量数据,前提是这些生物的结合口袋氨基酸组成保持一致。针对MAO-A和MAO-B分别训练机器学习模型,最终MAO-A模型的ROC AUC达到0.92,MAO-B模型的ROC AUC达到0.88。

接着,利用排名前3的机器学习模型对MolPort可购化合物目录进行筛选,分类阈值设为>0.65,最终仅保留556个化合物。这些化合物在Qsarna中进行预处理,并对接到来源于 PDB的MAO-A和MAO-B结构(PDB IDs:2BXR和2V5Z)。最终分子筛选基于结合构象的可视化检查以及经济因素的考量。

最后,购入并检测了19个化合物的MAO-A和MAO-B活性,实验使用Merck抑制剂筛选试剂盒(MAK295和MAK296)。结果发现了一批结合能力强于Cieślak等人原研究报道的分子,其中最有效的化合物在MAO-B上的IC50达到1.37nM。多步过滤流程及最有效的MAO-B抑制剂见图5。

图5 MAO抑制剂案例研究结果

总结

本文介绍了一个旨在通过高效探索化学空间、在虚拟筛选活动中实现新生物活性化合物搜索自动化的在线平台Qsarna。该工具允许用户管理数据并与团队成员共享实验结果。平台配备了自动化机器学习与分子对接筛选工具。此外,基于片段的模块还提供了用于构建组合化学库的生成式模型。这种混合方法在以下场景中尤为有价值:针对实验数据有限的靶标;苗头化合物扩展;通过整合基于配体与基于结构的方法减少化学偏倚。Qsarna通过自动化计算筛选流程加速药物发现进程。此外,其用户友好的界面能够辅助实验,并对非计算化学专家也友好易用。

参考链接:

https:///10.1021/acs.jcim.5c00720