推理模型通常是在形式化指定的系统(例如代码或符号数学)中,借助验证机制进行训练的。然而,在生物学等开放领域中,我们通常无法获取能够支持大规模形式化验证的精确规则,而往往依赖实验室中的假设检验来评估预测的有效性。真实实验进行验证的过程缓慢、昂贵,并且本质上无法与计算规模相匹配。
针对上述问题,陈和扎克伯格基金会的研究团队于2025年8月22日在bioRxiv上发表研究型文章,展示了如何利用生物学世界模型或其他先验知识,以软验证的方式训练推理系统,且无需额外的实验数据。文章提出生物学推理模型rbio1,它通过强化学习在预训练大语言模型基础上进行后训练,并利用已学习的生物学模型在训练过程中获取知识进行验证。rbio提供了一种概念验证:表明可以利用生物模型的预测结果,通过模拟训练强大的推理模型,而不是实验数据,从而开辟了一种新的训练范式。
代码仓库:
https://github.com/czi-ai/rbio
平台链接:
https://virtualcellmodels.
背景
近年来,基础模型的实用性已经在多类问题中得到了验证。然而,这些应用依赖于大量标注训练数据的可获得性,以及能够支撑基础模型高计算需求的充足算力基础设施。因此,若能通过某种方式将训练于生物学数据上的大型基础模型所捕获的知识剪接到更灵活、可交互、并且可能更小的模型(如对话式LLM)中,将会非常有益。虚拟细胞模型系统的愿景是构建强大的生物学预测模型,从而绕过实验数据的需求,并能够对任意细胞状态转变(如疾病到健康及其反向)进行预测。要实现真正的虚拟细胞模型范式,主要挑战在于如何整合基于不同数据集、甚至独立模态训练的模型,从而建立一个共享表示空间,将生物学世界模型中的知识加以融合。
为缓解这一问题,并朝着通用虚拟细胞系统迈进,作者将研究目标定义为:开发一种方法,能够将生物学世界模型整合到一个共同空间,并以语言作为连接模态。这种方法的优势在于,它可以将复杂的生物学模型转化为对话式模型,使其能够通过自然语言与用户交互,实验科学家和计算研究者因此可以轻松地访问和利用生物学世界模型中的知识。通过将生物学模型蒸馏进LLM,能够把实验数据所蕴含的知识结构提取出来,并转化为一种自然语言模型,从而支持交互式、可读性强的人机对话。这也可以被视为将推理型LLM与生物学世界模型对齐的过程。
为实现这一目标,作者利用推理型LLMs,它们能够通过对话模拟复杂的生物学交互。提出使用强化学习(具体为GRPO)来鼓励模型的行为与由生物学世界模型学习到的洞见保持一致,从而实现更精确的科学推理与有效的交流。此外,采用了一种新的学习范式:基于领域特定生物模型的奖励函数设计。这种方法使得模型的学习过程不再依赖于大量标注数据,而是直接使用模型预测作为训练信号。在本文中将这一机制称为软验证。
方法
图1(a)展现rbio1模型整体架构。rbio1通过软验证将虚拟细胞模型(VCMs)的生物学信息蒸馏进推理型LLM中,使用模拟结果而非实验数据作为训练信号。最终输出具有生物学知识的推理模型,用户可以通过自然语言与之交互。
图1(b)表示使用GRPO的训练过程示意图。在每个提示下,LLM会生成N个回答,每个回答都会基于VCM的响应获得一个奖励。随后,这些奖励会被转换为优势值,并进一步作为训练信号引导模型优化。
图1 rbio1总体架构图
图1(c)展示不同监督模式下推理LLM的框架。红色虚线箭头表示通过强化学习(此处为GRPO)进行训练更新的流程。A.硬监督实例:利用实验数据生成奖励,输出二元结果(硬答案),例如关于“基因A是否被基因B扰动”的判断。B.软监督实例(基于生物学模型):使用神经网络形式的生物学模型,输出某概率值(软答案),表示“基因A是否被基因B扰动”;软验证器则是一套规则,根据该概率与推理LLM给出的回答(是/否),生成最终奖励。C.软监督实例(基于知识源):以基因本体(GO)为知识源,将基因扰动信息转化为自然语言事实。软验证器(如基于关键词匹配、ROUGE分数、似然估计)会结合LLM的思维链式回答和GO提供的描述,返回奖励。具体来说,关键词匹配方式检索被敲除基因与目标基因的注释,奖励模型在推理中使用更多与注释相关的关键词;ROUGE分数方式计算基因注释与模型推理中使用的基因信息之间的语义相似度(ROUGE-1、ROUGE-2、ROUGE-L);似然估计方式评估GO基因注释在推理模型下的似然度,推动模型生成更科学准确的内容,从而减少幻觉。大多数软验证器不会直接输出[0,1]区间内的分数,需要归一化后才能作为奖励。
表1 强化学习训练阶段不同验证器类型的描述以及提示示例
结果
评价指标
在模型能力测试方面,选择基因扰动预测作为下游任务,即预测敲低某个基因对细胞内其他基因的影响。将其表述为自然语言问题,并要求二元答案(是/否)。给定一对基因geneA和geneB,模型需要输出一个二元判断。使用四个基于CRISPRi的单基因扰动下调数据集,分别来自四种癌细胞系(RPE1、K562、HEPG2、JURKAT),并通过PerturbQA处理为自然语言查询。计算召回率(Recall/TPR)、真负率(TNR)、精确率(Precision)、F1 Score、平衡准确率、马修斯相关系数(MCC)。作者认为TPR与MCC的结合更能反映模型在该任务上的表现。
基本性能
在PerturbQA数据集上,使用软验证器训练的模型能够学习在分布外细胞系上泛化,从而潜在地绕过在特定细胞系实验数据上进行训练的需求。训练了一个MLP基于三个细胞系的差异表达响应进行训练,然后在第四个细胞系上生成二分类预测。在RL训练中将该第四个细胞系的预测作为软验证分数。该过程如图2c所示。在两种实验数据场景下进行对比:(1)rbio-EXP-one-cell-line(图2a):在一个分布内细胞系实验数据上训练(训练集和测试集来自同一细胞系);(2)rbio-EXP-leave-one-out(图2b):在三个细胞系的实验数据上训练,在第四个分布外细胞系上测试。在基因表示上,尝试one-hot编码、gene2vec以及ESM嵌入。
图2 实验数据验证和基于MLP软验证模型性能比较
总体而言,基于分布外数据的MLP预测结果训练的rbio模型,其平衡准确率与TPR接近于基于分布内实验数据训练的模型,这可能意味着一个重要的范式转变:可以使用生物学预测模型在合成数据上进行模拟训练,并将这些结果作为带噪声的训练信号,从而达到与实验数据模型相当的性能。换句话说,可以绕过对小众领域知识或大规模实验数据的依赖,而转向模拟训练。
迁移能力
虚拟细胞模型向rbio教授非任务相关的生物学知识,并能迁移到扰动任务。具体来说,使用基因共表达数据的提示来训练rbio模型,例如“如果转录因子ADNP被激活,基因RABGAP1的表达是否会升高?”,答案为“是/否”。模型通过Transcriptformer输出的分数获得奖励。实验各指标计算如下:F1-score:rbio-TF=0.29 vs base=0.23;Balanced Accuracy:rbio-TF=0.59 vs base=0.52;TPR:rbio-TF=0.24 vs base=0.49(下降);TNR:rbio-TF=0.94 vs base=0.55(显著上升);MCC:rbio-TF=0.21 vs base=0.03(显著提升)。结果显示相比基线有显著提升。说明使用Transcriptformer融入训练的模型输出与真实测试数据的相关性更强,而基线模型几乎没有显著相关性。更重要的是,rbio-TF的训练提示与扰动预测完全无关,但它成功地将基因共表达的信息迁移到基因敲低预测任务中。
图3 实验数据验证和基于复杂VCM软验证模型性能比较
还尝试使用ESM嵌入作为基因表示,训练一个基于MLP预测的rbio模型(rbio-MLP-ESM),该模型的性能非常接近rbio-EXP-all-cell-lines(图3)。表明可以利用ESM嵌入提供的丰富信息,基于现有数据构建相对简单的预测模型,并通过模拟训练得到接近实验数据模型的性能,从而将ESM学到的生物学知识迁移到分布外任务。
多生物验证器联合训练性能
当训练模型时结合多个验证源时,性能通常会随着新增的验证源而提升,展示了各验证器之间的叠加性和潜在的互补价值。由图4可知,rbio-TF+GO+MLP-ESM明显优于仅使用Transcriptformer基因共表达数据训练的rbio-TF。这一基于多模拟源(完全不使用实验数据)训练的模型,其性能几乎接近完全依赖实验数据训练的模型(如rbio-EXP-all-cell-lines和SUMMER),如图4b和图4c所示。
图4 多验证器组合下训练的模型性能
在进行验证器的消融实验时,也发现类似趋势:不断增加验证源会持续提升性能。在图5a中,rbio-TF+EXP优于rbio-TF,说明即使模型已经基于Transcriptformer训练,加入实验数据依然能带来好处。进一步,rbio-TF+GO+EXP又优于rbio-TF+EXP,说明加入GO本体信息仍然能提升模型能力。而rbio-TF+GO+EXP+MLP在性能上继续提升。
图5 对于验证源的组合分析
总体而言,通过在多个生物学任务和信息来源(例如Transcriptformer的基因间互作与共表达数据、任务特定的实验数据,以及GO本体等知识型验证源)上联合训练模型,可以持续提升模型性能。
测试阶段利用CoT提示
如图6所示,在测试时要求模型输出链式推理过程(黄色标记),能使所有rbio模型的性能在各项指标上显著提升,甚至超过了目前最先进的模型(如SUMMER)。
图6 CoT提示影响
疾病相关问题提示示例
图7中给出了rbio模型在一个扰动问题上的回答与推理轨迹示例。图8展示了模型在更一般的疾病相关问题上的表现。链式思维提示往往使模型生成更详细的推理轨迹,这可能与在图6中发现的指标提升相关,即回答长度可能与性能改进相关。
图7 扰动预测任务测试集中随机采样的回答及推理轨迹
还探索了模型在完全超出训练分布的问题上的表现,例如与阿尔茨海默病、衰老、类风湿性关节炎等自身免疫病,以及脂肪营养不良等罕见病相关的问题。图8中的案例表明,模型在这些场景下通常能够给出合理且一致的推理,仅有少量科学性错误,并且往往会涉及基因信息和调控通路。这表明rbio模型在扰动预测以外的生物学任务上也有应用潜力,为未来研究开辟了令人兴奋的方向。
图8 非扰动相关问题回答案例
总结
本文提出了rbio1,通过生物世界模型产生的模拟结果作为奖励信号,而非依赖严格真实数据,并结合强化学习中的软验证过程训练得到的生物推理模型。实验结果表明,这种方法所得到的模型在性能上可以媲美基于实验数据训练的模型,尤其是结合CoT提示后效果尤为显著。通过充分利用生物医学生态系统中大量可用的、专门的生物模型所蕴含的知识,为构建不仅依赖实验数据的模型提供了一种有力的替代方案。此外,通过一些具有代表性的实例验证了这一思路:既包括基于基因嵌入的简单但高效的扰动预测模型(如MLP),也包括更为强大的生物学模型(如转录组学的Transcriptformer和蛋白质组学的ESM)。未来希望将rbio1扩展到整合多类型模型和多模态数据,作为一个平台,逐步构建一个真正通用的虚拟细胞模型,能够跨模态与跨任务汇聚来自强大模型的知识。
参考链接:
https:///10.1101/2025.08.18.670981