2025年10月27日,BITS Pilani大学、剑桥大学、新南威尔士大学以及德里大学等研究团队在arXiv上发表文章,题为“Symbolic Neural Generation with Applications to Lead Discovery in Drug Design”。
作者研究了一类混合神经符号模型,该模型将符号学习与神经推理结合,用以构建满足形式化正确标准的数据生成器。在符号神经生成器(SNG)中,符号学习器根据少量实例推导可行数据的逻辑规范。每条规范反过来约束神经生成器所接收的条件信息,使其拒绝任何违反符号规范的生成实例。文章实现了一个将受限形式的归纳逻辑程序设计(ILP)与大语言模型(LLM)相结合的SNG,并在药物早期设计中进行了评估。主要关注点是SNG所产生的描述以及其生成的潜在抑制剂分子集合。在基准问题中,SNG的表现与当前最先进方法在统计上相当;在靶点理解不足的探索性问题中,所生成分子展现出的结合亲和力可与领先的临床候选物相媲美。专家进一步认为,符号规范可作为有用的初步筛选条件,其中若干生成分子被识别为具有合成与湿实验室测试价值的候选物。
代码仓库:
https://github.com/tirtharajdash/LMLFStar
背景
随着现代预训练的大型神经模型已经能够逼近极其广泛的概率分布,新的挑战在于如何以可验证的方式对其进行约束,使其专注于特定任务。从原则上说,这一目标既可以通过纯符号方法实现,也可以通过纯连接主义方法实现。
对于一个符号生成器,需要找到某种符号描述S,其中包含对所有相关可能实例的集合U中元素的概率值。随后,这种符号描述可以直接用于采样生成实例。然而困难在于,符号表示通常不够细致,无法表达极其复杂的概率分布;此类分布更适合通过神经网络使用的高维实向量编码来逼近。这在利用语言模型获取复杂条件概率分布时尤为明显。
对于纯连接主义方法,神经网络可以对诸如Φ(·)之类的谓词进行编码。问题在于,如果数据样本极少,这种编码会效果不佳(LLM已在少样本文本任务中表现出惊人的能力,但目前尚不清楚这种能力能否稳健地扩展到逻辑公式)。此外,神经模型缺乏精确且可验证的形式化描述,这也构成挑战。当然,如果任务还要求描述能够被人类理解,那么神经网络的编码方式将面临众所周知的困难。
因此,出于实践考虑,人们对混合系统的兴趣持续存在。混合系统可以由已有模块构建,更易维护,并且更适合可控的实验研究,特别是在每个组件主要负责特定功能的情况下。
在本文中,作者提出使用一个符号组件,通过构造谓词Σ(·)的定义来探索Φ(·)的可能近似。每个此类定义都伴随一组实例,这些实例来自某个神经生成模型,并满足Σ(·)。这种使用符号学习器与神经生成器组合的方法构成了符号神经生成器(SNG)。图1展示了理想的期望结果,以及实际结果。按照定义,SNG属于类别图2(B)中系统的一个子类。
图1 (a)理想情况下,希望生成满足Φ(x)为真的实例集合中的实例;(b)当Φ(·)未知时,使用符号学习器得到的假设构造Σ(·),以近似Φ(·)。希望能从S中高效采样。N是神经生成器获得的实例集合。对于理想的SNG,应满足N ⊆ S ⊆ X;(c)在实践中,符号学习器可能不完美,而神经生成器对条件分布的建模也仅为近似。集合X是生成的、属于S的实例集合。
图2 混合神经符号系统的分类方法及示例
神经符号生成
考虑如下问题:识别集合X={x:x∈U,Φ(x)为真}中的实例,其中条件是Φ(x)未知。然而,确实拥有一些来自U的实例,并且知道它们是否属于X。此外,也可能存在一些与问题相关的背景知识可供利用。在符号神经生成中,利用已有知识研究一个对Φ(·)的近似Σ(·),并使用该近似来约束后续由神经采样器生成的实例的选择。
SNG实现
从图3(b)可见,SNG的实现可以被设计成对集合F中的成对元素(或其加权版本T)进行搜索。在设计实现时,需要回答三个问题:如何识别假设H;如何获得支持集X;如何在空间T中进行搜索。伪代码1是一个为解决获得支持集问题而设计的通用实现,它使用LLM作为从U中生成实例的生成器。SNG的输出是一个三元组(H, X, W),其中H是由数据构建的可行实例的符号描述,X是满足该描述的生成新实例集合,W是相关权重。
图3 SNG偏序语义
伪代码1 Gen:神经生成器的基于LLM实现
简单SNG的示例
一个简单的SNG可以通过以下策略得到,(a)首先在基底偏序上搜索,以找到良好的符号假设H;(b)使用步骤(a)获得的H,并调用过程Gen在给定背景B的基础上获取实例样本。
通过一个国际象棋棋局示例来说明链式处理SNG:由白王(WK)、白车(WR)和黑王(BK)组成。关于该棋局存在两个典型任务:学习用于判定非法局面的规则;在黑方行棋(BTM)情形下,预测白方最短几步可以将死黑方(图4(a))。在黑方走棋时,该局面已经是将死,因此是白方必胜(WFW)局面。这类局面仅占整个数据集约0.1%,属于罕见事件。因此SNG的目标是识别一个描述WFW的符号假设以及为该罕见事件生成样本实例。

图4 国际象棋棋局示例
Gen 迭代结果示例
下图展示了使用GPT-4o作为语言模型、最大样本数量设为30时,过程Gen迭代结果。由图5可知,使用符号模型时,LLM的条件生成能力会逐步提升;鉴于WFW这一概念的正例数量极少,在没有符号理论且Zero-shot的情况下,LLM未能生成任何正例。
图5 每次Gen迭代中生成的WFW实例数量
在先导化合物发现中应用SNG
案例1:具有大量配体的已充分研究的靶点
在两个研究充分的激酶抑制剂上进行受控评测,分别为JAK2(4100个带标签的分子,其中3700个为活性)以及DRD2(4070个带标签的分子,其中3670个为活性)。在本案例研究中,仅使用1个因素,即估计结合亲和力。实验方法步骤如下,首先确定因子集合F及其他约束。随后获取数据实例,包括正例、反例以及未标注样本。最后使用背景知识B、数据D、因子F以及其他约束,使用GenMol生成一组分子并评估所生成分子的质量。
图6 激酶抑制剂JAK2及DRD2的实验结果
结果如图6所示,SNG的表现至少与LMLF++持平,甚至更好。此外,一个理想的先导化合物生成器应能提出新颖的分子。对JAK问题而言,这并不容易,因为已知抑制剂数量非常多。图7表明GenMol生成的分子仍具有相当的结构新颖性。这部分归因于LLM的prompt,意在生成不属于任何已知化学数据库的分子。
图7 使用GPT-4o生成分子的潜在新颖性
案例2:对靶点理解不足且抑制剂稀少的情形
本研究使用人类多巴胺β-羟化酶(DBH)二聚体的计算模型生成小分子,使其在模拟环境下具有比最新一代DBH抑制剂至少同等或更好的IC50与KD值。使用5种已知的DBH抑制剂(Tropolone、Disulfiram、Nepicastat、Zamicastat、Etamicastat)作为数据,后三者见图 8。该探索性问题旨在基于5个分子在DBH代理靶点上的结构与抑制效果数据,生成潜在的DBH抑制剂先导分子。已知分子的数量非常少(只有5个)。进行了两类探索实验,分别为In-the-Box探索/Few-shot模式和Out-of-the-Box探索/Zero-shot模式。
图8 三种处于不同FDA审批阶段的已知DBH抑制剂
图9 Few-shot(1-5)与Zero-shot(6-10)生成的Top-5分子
图9展示了GenMol提出的潜在DBH抑制剂,以及它们对4zel蛋白的对接分数。分子1–5是In-the-Box探索/Few-shot模式中按估计亲和力排序的前5名;分子6–10是Out-of-the-Box探索/Zero-shot模式的前5名。在Few-shot模式中,GenMol所用的LLM在生成时具有少量示例;在Zero-shot模式中不提供示例,LLM根据其分子分布生成分子。结果表明,Few-shot模式倾向于生成与现有抑制剂相似(但不同)的分子。Zero-shot模式能够生成与已知抑制剂非常不同的新型分子。从生物学角度,有充分理由相信,分子1–5能够与靶点结合;分子6、7、8和10也有良好的结合可能性;其中生物学家认为6和10特别有趣。从合成角度看,所有分子都可合成,但6–10更可能通过短路线合成(因此可能更便宜)。
图10 使用/不使用符号学习所生成分子的预测结合亲和力
图10展示了仅使用基于LLM的生成器、且不使用符号理论来约束其输出时的结果。结果显示,符号假设确实在其中发挥了有用作用。
总结
本文提出了一种神经-符号方法,称为符号神经生成(SNG)。SNG系统的特点在于使用一个(学到的)符号描述约束神经生成器生成数据的过程。符号模型在SNG中起到规范的作用,而神经生成器则起到实现的作用。在基准问题上展示的结果表明,SNG方法可与最先进方法相媲美。然而,更具意义的是探索性研究,它对早期药物设计领域尤为重要,具体体现在,使用极少量的数据实例(本例中仅5个),生成器的一些结果(尤其是在Zero-shot模式下)可能具有生物学新颖性并可被合成。通过LLM,生成的结果可被专家理解;通过符号模型,对LLM输出的控制与验证也得以实现。本工作可通过多种方式改进与扩展,包括GenMol算法解的质量以及方法效率的优化、更多Out-of-the-Box实验以及符号方面的进一步探索。更广泛地说,SNG系统不仅适用于分子生成,还可用于任何需要生成数据并进行形式验证或人工验证,但尚无正式描述的问题。
参考链接:
https:///10.48550/arXiv.2510.23379