新分子的设计是推进药物发现与生物材料工程发展的基础。尽管传统策略(如天然产物分离与高通量筛选)在过去几十年催生了诸多重要治疗手段,但其成本高、效率低,在探索广阔而复杂的化学与生物分子空间方面仍表现受限。预测型机器学习模型在一定程度上改进了发现流程,却仍难以全面应对当代精准医学的复杂性。相比之下,生成式人工智能通过数据驱动的优化实现分子的de novo创造,为分子设计带来范式转变。当前,变分自编码器(VAE)、生成对抗网络(GAN)和扩散模型在内的多类生成架构已展现前所未有的潜力,能够设计满足复杂物理化学与生物学需求的小分子和大分子。
2025年11月18日,韦仕敦大学、滑铁卢大学与麦马斯特大学的研究团队在《Journal of Chemical Information and Modeling》期刊上发表综述文章,题为“Generative AI for the Design of Molecules: Advances and Challenges”。
该综述重点关注生成模型在小分子和大分子设计中的方法学进展,并强调这些技术如何重塑药物发现的整体格局。文章的一项重要贡献是提出了一套系统化的分类体系,从生成方法的底层模型架构、优化策略到具体应用领域进行分层归类。这一框架不仅澄清了各类方法之间的内在联系,也为评估不同技术的优势、局限性及其最佳应用场景提供了结构化视角。作者对当前方法进行了全面的综述与批判性分析,探讨其解决实际分子设计问题的能力,同时指出主要挑战与尚未解决的关键问题,为未来开发更高效、更实用的生成式分子设计工具指明了方向。
生成式人工智能背景
生成式人工智能指能够创建新内容的人工智能方法,包括分子、图像或自然语言文本等,这些生成内容通常与真实世界数据高度相似,或在其基础上实现合理的扩展。不同于侧重预测任务的判别式模型,生成式模型关注“合成”,即从现有数据中学习结构与模式,并据此生成新的合理示例。如图1所示,判别式模型学习条件概率分布p(y|x)(用于分类或回归等任务),而生成式模型旨在捕获联合分布p(x,y),从而能够依据不同模态的提示生成新的样本。
图1 判别式AI与生成式AI
生成式AI的技术演进可从早期的变分自编码器(VAE)起步,其采用概率隐变量建模;随后发展到生成对抗网络(GAN),通过对抗式训练提升生成质量;再到基于流(Flow)的模型,利用可逆变换实现精确的似然估计;以及具有强大扩展性和多模态能力的Transformer;最终到达具有高稳定性与高保真度的扩散模型(图2)。
曾经占主导地位的GAN已在许多领域被扩散模型取代,而“扩散模型 × Transformer”的协同正成为当前最前沿方向,使可控的多模态生成与跨科学、设计、生物学的应用成为现实。尽管基于流的模型在视觉生成领域的中心地位有所下降,但仍在两个关键方向具有持续影响力:其一,通过Flow Matching、Rectified Flow等框架充当理论桥梁,将扩散模型与基于常微分方程的生成过程统一起来;其二,作为科学计算的实用工具,在分子动力学模拟、蛋白质结构建模和药物设计等场景中,其可逆性和精确似然估计依旧具有明显优势。
图2 生成式AI发展时间线
在分子生成任务中,研究者已提出多种优化策略,以引导生成模型产出更符合药物设计需求的分子结构。根据这些策略在建模流程中发挥作用的阶段,可将现有方法大致分为三类,即训练阶段优化、采样阶段优化和生成后优化(图3)。
图3 生成模型优化策略分类
训练阶段优化是指在模型训练过程中施加约束,引导分子生成模型学习产生具有目标性质的结构。这类方法将性质约束直接融入学习目标,使模型能够生成与性质要求一致的分子。典型方法包括:条件训练、性质回归损失、多任务学习以及强化学习微调。
采样阶段优化是指在生成过程中,通过调控生成模型的采样轨迹来提高生成目标分子的概率。这类方法并不改变模型参数,而是在推理阶段影响采样过程,使其更倾向于产生具有期望性质的分子。常见方法包括分类器引导、梯度引导、能量引导以及强化学习。
生成后优化是指在分子生成完成后,通过过滤、排序或修饰等方式对候选分子进行改良,而不是在训练或采样过程中进行干预。常见方法包括遗传算法(GA)、贝叶斯优化(BO)以及强化学习(RL)。
生成建模中的分子表示
用于分子设计的生成式人工智能模型依赖一系列分层的分子表示方式,以捕捉不同层级的结构与化学信息(图4)。在1D表示中,分子被表示为线性序列。常见格式包括用于小分子的SMILES字符串,它以线性化文本编码原子与键信息;以及用于蛋白质的氨基酸序列,它构成蛋白语言模型的主要输入形式。在2D表示中,分子被建模为图结构,其中原子为节点、键为边。此类基于图的表示更自然、明确地捕捉拓扑结构与化学连接性,保留分子骨架并支持子结构层级的建模。它特别适用于图神经网络(GNN),使生成模型能够在局部与全局分子特征层面进行推理。在3D表示中,分子结构由原子空间坐标描述,以反映精确的几何与立体构型。其中包括分子构象、蛋白质三级与四级结构,以及配体–受体结合构象。3D表示对于建模诸如结合亲和力、稳定性和反应性等物理化学性质至关重要,并且要求生成模型能够保持对旋转和平移的等变性。该领域的常见方法包括等变神经网络,如SE(3)-Transformer、EGNN,以及基于3D坐标的扩散模型,用于生成逼真的构象与蛋白折叠结构。
图4 生成建模中常用的分子表示方式
生物分子的设计与发现
小分子建模
小分子建模是AI驱动药物发现的核心组成部分,其目标是生成、评估并优化具有理想药物性质的化学化合物。将生成方法大致分为两个主要分支,即小分子设计与构象建模。小分子设计侧重于创造满足特定设计目标的新颖化学结构;而构象建模关注生成或优化三维分子结构,包括低能量构象以及能够捕捉关键几何与能量特征的结合姿势。表1展示了常用小分子设计的数据集。表2总结了小分子设计常用的评价指标。
表1 小分子设计常用数据集
表2 小分子设计任务常用评价指标
生成式方法可大致分为无约束生成与属性约束生成两大类(图5)。无约束方法旨在探索化学空间,以发现新的骨架或化学类型;属性约束方法则在生成过程中引导模型产生在理化性质或生物特性方面表现更佳的分子,例如高活性、良好溶解度或低毒性。
图5 小分子设计生成方法分类体系

虽然de novo分子设计关注生成全新的化学结构,构象建模则将这些新分子或已有分子转化为物理上合理的3D几何结构,以反映其生物活性构象。这对于分子柔性建模及基于结构的相互作用至关重要。该领域方法一般分为构象生成和结合构象预测(图6),两者结合可实现精准几何建模,并将3D信息整合到AI驱动的药物发现中。其中,构象生成旨在生成多样化、低能量构象,通常不依赖特定受体。而结合构象预测重点预测分子在蛋白结合口袋中的结合构象。
图6 小分子构象建模生成式方法分类体系
大分子建模
大分子建模将生成式设计从小分子扩展至具有生物功能的高分子,如蛋白质、肽及抗体。这些大分子具有复杂的序列–结构–功能关系,需要能够同时捕捉化学组成与三维构象动态的建模方法。该领域的生成式方法大致分为两个主要分支,即大分子设计与构象建模。大分子设计专注于生成具有期望功能的新序列或结构;构象建模通过优化或推断原子坐标获得物理可信的三维几何。表3展示了大分子设计常用数据集。表4总结了大分子设计常用的评价指标。
表3 大分子设计常用数据集
表4 大分子设计任务常用评估指标
当前生成式方法可分为两类,即序列生成以及结构生成(图7)。序列生成旨在设计具有特定结构或功能的氨基酸序列;结构生成则直接生成三维结构,包括蛋白、抗体及肽的结构。
图7 大分子设计生成式方法分类体系
大分子构象建模关注捕捉蛋白质、肽和抗体等高分子的结构动态与空间组织。其目标是优化或预测决定生物功能与分子相互作用的三维几何结构。现有方法可分为结构预测、构象生成以及结合构象预测(图8)。结构预测是从序列推断折叠结构;构象生成采样替代构象或低能量状态;而结合构象预测建模多聚体复合物或蛋白–配体结合构象。
图8 大分子构象建模生成式方法分类体系
生成式分子设计中的新兴挑战
数据准备:数据稀缺与偏差
在分子生成中,一个最根本的挑战是高质量标注数据的有限性,尤其是在涉及稀有性质、全新骨架或非经典生物分子的场景中。数据稀缺限制了模型在训练分布之外的泛化能力,并常导致过拟合或对化学空间的有限探索。同时,数据集偏差也是普遍存在的问题。这种偏差,加之缺乏透明的基准测试机制,可能导致对生成模型新颖性的高估,并产生关于模型创造力的误导性结论。
应对这些问题不仅需要提高数据集的多样性,还需要建立标准化的评估协议和更加透明的数据使用方式。未来的努力应包括促进训练数据集的公开共享,提供生成分子与训练分子的相似性比较,以及在评估AI生成化合物与传统药物化学流程时采用一致的标准化协议。
模型架构:迈向化学有效性与生物相关性
物理化学先验的整合不足。大多数生成模型依赖从大规模数据集中进行统计学习,仅有限地融入化学规则或物理约束。因此,它们虽能生成语法上合理的分子,却常存在化学可行性问题,例如结构不稳定或不可合成。未来可能的方向是利用可微分代理模型或高效模拟器近似物理先验,从而生成更加符合物理规律的分子结构。
面向生物相关性的多模态整合。另一个关键挑战在于如何整合复杂的生物学上下文。目前大多数模型仅使用分子结构作为输入,忽略了细胞、通路或表型层面的信息。未来的生成框架应支持多层次生物信息整合,使生成的分子不仅化学上有效,也在生物学功能上具备实际效应。
自主AI智能体。与静态模型不同,自主AI智能体能够在不同工具与数据源的反馈下,迭代执行分子的生成、评估与优化。它们能够规划合成路径、动态调整设计目标,并从不确定性中学习。将此类智能体与大语言模型及生成式骨干模型相结合,有望提升决策自主性,并在闭环环境中加速分子发现进程。
生成后优化:具备不确定性量化的多目标优化
尽管生成式AI模型在创造新颖分子方面展现出显著潜力,但一个核心挑战仍然存在,即如何在庞大的化学空间中高效探索,同时找到能够满足多个且常常互相冲突的设计目标的候选分子。研究表明,将不确定性量化纳入多目标优化中,可以提升命中率,还能通过聚焦化学空间中信息量更丰富的区域,加速高价值分子的发现过程。
参考链接:
https:///10.1021/acs.jcim.5c02234