arXiv｜南京大学符天凡等：用于化学的3D多模态大语言模型Chem3DLLM

与一维的SMILES序列和二维的分子图相比，三维分子提供了更丰富的模态信息。尽管自回归语言模型取得了快速进展，但它们仍然无法处理三维分子构象的生成，原因在于以下挑战：1)三维分子结构与大语言模型(LLMs)的离散符号空间不兼容；2)在统一模型中整合蛋白质、配体和文本等异构输入依然困难；3)LLMs缺乏必要的科学先验知识，难以在生成过程中施加物理和化学约束。

为解决上述问题，中国科学技术大学徐小华，上海AI Lab李玉强、周东展，南京大学符天凡等于2025年8月14日在arXiv上共同发表最新研究成果。文章提出以蛋白质为条件的统一多模态大语言模型Chem3DLLM，可以在蛋白质结构和分子SMILES双重条件的指导下，实现三维分子构象的端到端建模与优化。在基于结构的药物设计实验中，该方法取得了最先进的性能，验证了提出的统一多模态方法在实际药物发现中的应用潜力。

背景

原始的LLM无法直接生成三维分子结构，主要面临以下挑战：(1)三维分子结构的数据格式与LLM不兼容。三维分子结构通常表示为坐标数组和原子间距离矩阵，这些都是数值型和连续型数据，而LLM设计之初是用于处理离散的符号序列。如果没有适当的编码或离散化，这类几何数据无法直接输入或由标准语言模型生成，从而限制了其对空间构象进行推理的能力。(2)在统一模型中对齐多种模态。在实际的化学应用中，任务往往需要对异构输入进行联合理解，例如文本描述、蛋白质结构和小分子配体。如何在共享的嵌入空间中有效对齐这些多模态数据，同时保持其结构和语义的完整性，仍然是多模态推理与生成中的一大挑战。(3)引入科学先验知识。准确的三维分子生成必须符合物理和化学约束，例如键长、键角和立体化学，而这些并不是基于文本语料训练的LLM所天然具备的知识。如何在模型架构或训练过程中整合这些特定领域的科学知识，以保证生成结果在化学上有效、在物理上合理，并且能够规模化和泛化，是一个重要问题。

图1 Chem3DLLM从不同输入模态生成3D分子

为应对这三大挑战，作者提出以蛋白质为条件的统一三维分子生成框架Chem3DLLM，主要贡献及对应上述挑战的解决方案如下：(1)提出可逆分子标记压缩(RCMT)，可以将三维分子结构从SDF格式无损压缩为紧凑的文本序列，在保留几何坐标和化学键信息的同时，使数据与语言模型处理兼容。(2)引入轻量级的蛋白质结构投影模块，将三维蛋白质结合口袋特征与语言模型的语义空间对齐，从而实现与小分子编码的统一多模态表征学习。(3)提出带科学反馈的强化学习(RLSF)训练框架，利用基于物理和化学原理的奖励信号引导LLM生成有效且合理的三维分子构象。通过科学奖励对结构和能量可行性进行反馈，RLSF使模型能够迭代优化分子结构，从而有效地将领域知识融入生成过程。Chem3DLLM建立了一条结构感知的生成路径“表征→对齐→优化”，为三维空间中的高质量分子设计提供了全面支持。

方法

Chem3DLLM整体架构如图2a所示，采用三阶段流水线：首先将分子结构转换为压缩后的文本表示；然后输入多模态 LLM(以蛋白质结合口袋嵌入为条件)；最后通过带化学奖励的强化学习进行优化。

图2 Chem3DLLM架构

可逆分子标记压缩(RCMT)

提出一种数学上严格的双向编码方案，将SDF分子文件转换为压缩文本序列，并保证可无损重建。编码算法(图2b)，给定图G生成包含原子与键信息的紧凑的序列T。其中原子信息由原子对应的化学符号A以及分配的三维坐标C组合而成，δ控制量化精度。根据键类型构造邻接矩阵B，并对稀疏的键矩阵应用游程编码，最终获得键信息。解码算法(图2c)，通过解析文本序列T重建分子图G。该编码方案确保完整的分子几何与键信息重建。在QM9数据集上的实验表明：平均压缩率ρ>3.2(图5给出实证结果)，分子有效性达98.56%，且RMSD=0，验证了可逆表示的有效性。

多模态LLM架构

多模态LLM包含三个关键组件：蛋白质编码器(基于ESM，预训练的蛋白质语言模型)、语言模型(采用Qwen2-7B)、跨模态对齐模块。为了将蛋白质结构信息融入分子生成，采用跨模态对齐框架。具体过程如下：给定一个包含n个残基的蛋白质结合口袋，利用预训练的ESM模型提取上下文嵌入。随后，蛋白质嵌入通过一个多层感知机投影到语言模型的隐空间。对齐后的蛋白质表征与文本嵌入拼接，并输入到语言模型中。给定文本提示和蛋白质上下文，模型自回归地生成分子表示。

采用两阶段训练方法优化多模态框架：(1)监督微调(SFT)：在指令跟随数据上训练模型以完成蛋白质条件下的分子生成任务。在该阶段，冻结预训练的ESM编码器，仅优化投影模块(MLP)和语言模型主体。(2)强化学习(RL)：进一步通过强化学习优化模型，以提升化学有效性和分子性质。SFT阶段的目标函数是标准的下一词预测损失。

带科学反馈的强化学习(RLSF)

尽管多模态LLM在构象生成中提供了良好的先验，但它并不能保证生成分子的化学稳定性或可合成性。为此，提出RLSF框架，通过化学约束奖励信号对预训练生成模型进行精化(图2d)。设计了一个以稳定性为中心的奖励函数，优先考虑分子稳定性与原子稳定性，并辅以分子多样性和化学有效性指标。RLSF优化以预训练模型作为初始策略，采用PPO策略来最大化稳定性驱动的期望奖励。

实验设置

任务1：分子构象生成(MCG)。给定一个SMILES 输入，模型生成相应的三维构象。在QM9数据集上进行评估，该数据集包含13万个小分子，提供三维结构和量子性质。采用100K/18K/13K的训练/验证/测试划分，并生成10,000个分子用于评估。使用原子稳定性、分子稳定性、有效性、唯一性来评估化学有效性和结构准确性。

任务2：基于结构的药物设计(SBDD)。给定一个蛋白质结合口袋，模型生成具有潜在结合亲和力的三维分子。在CrossDocked数据集上进行评估，该数据集包含10万个训练的蛋白-配体对和100个测试蛋白，每个测试蛋白生成100个候选分子。主要使用Vina Score来评估目标蛋白与生成配体之间的结合亲和力。

结果

单任务训练

Chem3DLLM在构象生成任务上超过了所有现有基线模型，包括GeoLDM，甚至在所有指标上优于依赖于距离几何和基于力场优化的RDKit。模型达到95.00%的分子稳定性，100.00%的化学有效性，100.00%的唯一性。

表1 构象生成任务结果

在基于结构的药物设计任务中，Chem3DLLM达到最佳中位对接分数-7.15，平均-7.03，超过所有基线方法。与MolCRAFT(平均-6.59)相比，模型在平均值上提升了0.42，在最佳情况下提升超过5。这些性能提升主要来自能捕捉长程的蛋白-配体相互作用的蛋白质感知解码器以及预训练的分子嵌入空间，强制保证几何合理性与生物学兼容性。

表2 SBDD任务结果

多任务监督下联合优化

当与构象生成任务进行联合训练时，Chem3DLLM在SBDD上进一步提升，得到最佳对接分数-12.30，平均分数-7.21。这一多任务设置并未削弱SBDD表现，反而增强。将这一增益归因于构象预测任务的辅助几何监督，其注入了空间归纳偏置用于配体生成并强化了生成的化学有效性。性能从-7.03提升到-7.21，表明多任务学习带来了协同效应。这一结果突出了Chem3DLLM能够在统一架构下同时支持分子层面与结构层面的推理，而无需做任务特定的妥协。

表3 融入额外的几何监督到SBDD任务结果

定性结果

SBDD任务定性结果如图3所示，生成的分子与蛋白质结合口袋紧密结合，对接评分低于-10，并且具有良好的SA指标。这些结构在合成可行性与药理学相关性之间达到了良好平衡，展示了Chem3DLLM在不同靶点上生成具有生物活性且化学上合理的配体的能力。

图3 SBDD案例研究

构象生成任务中，将预测的分子构象与真实构象进行对比(图4)。给定SMILES输入，Chem3DLLM能够生成化学有效且高度保真的三维结构，覆盖多样的化学结构基元(如：脂肪链、羰基、三键)。预测结构与真实结构在视觉上高度吻合，说明Chem3DLLM能够捕捉精细的原子排列与立体化学特征，从而在定性上支持其结构精确性与普适性。

图4 分子构象生成案例研究

消融实验

可逆压缩分析。如图5所示，对比了原始SDF格式与RCMT所生成的紧凑表示在五个示例分子上的字符数。结果显示，RCMT在大多数情况下实现了超过60%的压缩率，显著减少了分词长度。在随机选择的100个分子样本中，平均实现了35.20%的字符压缩率。这一大幅度的压缩效果凸显了RCMT的优势：在不牺牲分子保真度或三维结构精度的前提下，有效降低了下游生成建模中的存储和计算开销。

图5 原始SDF以及提出的RCMT压缩文本形式对五个代表分子字符计数

为了探究RCMT和训练目标的作用，消融实验结果如表4所示。去除RCMT会导致最差表现(Vina score: -1.82)，说明其缺乏结构感知能力。仅使用RCMT(无RLSF)时，分数提升至-7.03，表明RCMT对构象学习的显著贡献。完整的Chem3DLLM(同时结合RCMT和RLSF)取得-7.21的最佳结果。这些结果表明RLSF提供了任务特定的适应性，RCMT则发挥了主要作用，它通过紧凑且强大表达能力的编码，为语言建模提供了兼容的分子表示。

表4 消融实验结果

总结

本文提出了统一的、蛋白质条件驱动框架Chem3DLLM，用于弥合结构基础药物设计中三维分子结构保真度与化学有效性之间的长期鸿沟。Chem3DLLM通过将完整的原子级3D几何信息压缩为无损且可序列化表示，在分词嵌入空间中对齐蛋白质-配体的异质模态，利用面向稳定性的强化学习奖励引导生成，最终在CrossDocked基准上取得了-7.21的Vina score，超过了近期的扩散模型和自回归模型基线，同时保持100%的语法有效性与>95%的合成可及性。这些结果表明在单一LLM架构中显式处理三维约束并实现跨模态对齐，不仅是可行的，而且是有益的。未来工作将探索扩展到更大规模的化学空间，并且融合下游实验反馈实现端到端的先导化合物优化。

参考链接：

https:///pdf/2508.10696

微精选

arXiv｜南京大学符天凡等：用于化学的3D多模态大语言模型Chem3DLLM

最近文章