Nature Biotechnology  | 多模态学习实现单细胞数据的聊天式探索














研究论文

● 期刊:Nature Biotechnology(IF:41.7)

● DOI:https://doi.org/10.1038/s41587-025-02857-9

● 原文链接:https://www./articles/s41587-025-02857-9

● 第一作者:Moritz Schaefer、Peter Peneder

● 通讯作者:Christoph Bock ([email protected])

● 发表日期:2025-11-11

● 主要单位:

维也纳医科大学、奥地利科学院分子医学 CeMM 研究中心、圣安娜儿童癌症研究所 (CCRI)、维也纳大学等

摘要Abstract

单细胞测序已能在前所未有的规模与细节上刻画生物样本,但其数据解读仍面临巨大挑战。本文提出 CellWhisperer——一套面向基因表达聊天式查询的人工智能 (AI) 模型与软件工具。我们通过对比学习的方法,对一百万份经 AI 整理的 RNA 测序图谱及其文本注释进行多模态嵌入,将转录组与对应描述映射至统一表征空间。该嵌入进一步驱动大语言模型,在自然语言对话中回答用户关于细胞与基因的问题。

我们系统评估了 Cellwhisperer 在零样本条件下预测细胞类型及其他生物学注释的性能,并通过人类胚胎发育的荟萃分析展示其发现生物学新知的能力。此外,我们将 Cellwhisperer 聊天模块集成至 CELLxGENE可视化平台,使用户得以在图形界面与对话界面协同下交互式探索基因表达。综上,Cellwhisperer 依托大规模社区数据资源,将转录组与文本紧密关联,为单细胞 RNA 测序数据的自然语言交互式分析提供了新范式。

结果Results

CellWhisperer多模态AI:连接转录组和文本

我们推出了CellWhisperer——一种多模态人工智能,可以通过自然语言对话实现交互式scRNA-seq数据探索。其构建分三步(图 1a):

1.LLM辅助整理多模态训练数据,获得1,082,413 对人类RNA-seq表达谱及配套文本注释; 

 2.训练CellWhisperer嵌入模型,将转录组与其AI整理的文本描述共同映射至联合嵌入空间,用于细胞检索与注释; 

3.开发CellWhisperer对话模型,融合转录组信息以支持自由提问与自然语言交互。

本节概述上述三步,技术细节见Methods、补充说明2、补充说明3及扩展数据图1。

首先,我们构建了一个大规模转录组训练数据集(涵盖批量RNA-seq图谱及由scRNA-seq衍生的伪批量图谱),并配有简明文本注释(例如“取自男性Ⅱ期肾癌组织样本,无转移,经福尔马林固定石蜡包埋保存”),以覆盖GEO和 CELLxGENE Census所收录的全部细胞类型与实验条件。GEO包含逾2万项研究人员提交的人类RNA-seq数据,主题广度极大,但亦需要统一处理。我们采用 ARCHS4对GEO数据进行标准化重处理(uniform reprocessing),并开发LLM辅助整理流程,依据GEO提供的样本元数据(含细胞类型、器官、组织、疾病、实验方法及项目摘要)为每例样本生产简洁、连贯且具有生物学信息的文本注释。 LLM 提示词与示例结果见补充说明2。该AI辅助数据整理最终获得705,430例人类转录组及其配套文本注释的标准化数据集。

此外,我们还从CELLxGENE Census的数百套scRNA-seq数据集中构建了伪批量转录组,包括来自人类细胞图谱的参考图谱。我们根据提供的元数据将每套数据集中的细胞分组,并通过组内所有单细胞表达谱取平均来计算伪批量转录组。

随后,采用相同的LLM辅助整理流程,将每组的元数据凝练为简明的生物学描述,最终新增376,983例人类转录组及其配套文本注释。

第二步,我们利用上述1,082,413个带注释的转录组集合来训练多模态 CellWhisperer嵌入模型,该模型将两种数据模态整合到联合嵌入空间(扩展数据图1a与图1a)。为此,我们采用对比语言-图像预训练 (CLIP) 架构:以Geneformer 处理基因表达谱,以BioBERT处理生物医学文本注释;随后通过标准前馈神经网络层将两条向量映射到2,048维多模态嵌入空间。训练目标为使同一对“转录组+文本”的两个向量在这个共同空间内靠得足够近。

验证结果显示,所得的CellWhisperer嵌入模型能够根据文本注释检索对应转录组,反之亦可——这是CLIP类模型的标准性能指标,平均受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUROC)达0.927(扩展数据图1b)。训练后的模型接受自由文本查询:先用 BioBERT 将查询语句编码为向量,再与 Geneformer 生成的各转录组向量比较,输出定量匹配度,即“CellWhisperer 评分”。评分越高,表示该转录组与查询文本的吻合度越高。

第三步,为使自然语言对话能够融合转录组信息,我们以Mistral 7B开源权重LLM,进行定制与微调,使其在接收文本查询的同时亦能接收 CellWhisperer 转录组嵌入。该方法借鉴了可解读并讨论图像的多模态LLM(例如 GPT-4、Gemini与LLaVA14)的思路。我们构建了含 106,610 轮对话的训练集,包括:

基于规则的简易问答(例如,“该样本代表什么?”,以样本的文本注释作答案)

由LLM生成的关于转录组与细胞的复杂对话

技术细节见Methods,示例在补充说明 2 。训练时,我们将转录组嵌入与对应问题共同输入Mistral 7B LLM(通过适配层将嵌入转换为模型兼容的 token 级嵌入),并微调模型以生成匹配答案。最终获得的微调 LLM 可回应自由文本提问,并就细胞及其生物学功能、基因调控机制及其他与转录状态相关的生物学过程展开自然语言对话。

图1 | CellWhisperer 多模态AI转录组自然语言分析概览

木源微生物组的细菌与古菌群落组合(n=242个木材样本)及配对土壤样品(n=269个土壤样本)

a, 概念框架:左侧示训练数据生成(LLM 辅助整理108万对转录组-文本),中间示模型训练与推理(多模态嵌入+对话微调),右侧示在 scRNA-seq 分析中的应用。

b, 对GEO人类转录组的 CellWhisperer 嵌入进行 UMAP 降维;聚类采用 Leiden 算法,簇标签由CellWhisperer自动生成。注释后的数据集可在项目网站(https://cellwhisperer./geo)交互浏览。

c, 在 b 的 UMAP 上投影自由文本查询“infection”的CellWhisperer匹配评分,高值区域对应感染相关转录组。

d,  依据 CellWhisperer 生成的簇标签回捞样本元数据(示例为 GEO 提交日期),用于时序趋势分析。

为了展示CellWhisperer 处理、整合与注释大规模转录组数据方面的能力,我们对705,430份源自GEO的人类转录组对应的CellWhisperer嵌入进行聚类,并用CellWhisperer对话模型对这些聚类进行文本注释(图1b;交互式版本 https://cellwhisperer./geo)。嵌入结果成功捕获了细胞类型、发育阶段、组织、疾病及其他细胞特征。例如,以“infection”查询词检索嵌入模型并将 CellWhisperer分数(量化查询与每条转录组之间的匹配度)投影至GEO转录组的 UMAP(均匀流形近似与投影)可视化时,高亮区域精确对应参与感染免疫应答的细胞聚类(图 1c)。由于UMAP中的每个数据点均可回溯到GEO数据库中的具体样本,我们可以进一步获取对应的元数据,从而评估过去十年间特定细胞聚类及生物学功能的RNA-seq研究中的关注度变化(图 1d)。

综上,我们构建了一种多模态AI系统,可在转录组与文本之间实现无缝双向映射,并支持以英文对话方式对整体RNA测序及单细胞RNA测序数据进行交互式分析。

CellWhisperer 对多种细胞特征的零样本预测

为评估多模态 CellWhisperer 嵌入模型是否捕获了与人类生物学相关的关键信息,我们在零样本条件下(即不进行任何任务特定微调或依赖参考数据集)测试其仅依据转录组预测细胞类型、疾病、组织及器官等特征的能力。具体而言,我们选取若干专家注释且未参与CellWhisperer训练的转录组数据集,利用模型为每条转录组针对所有潜在细胞类型标签打分(图 2a),随后比较数据集中的真实标签与模型给出的 CellWhisperer 评分,以量化其细胞/转录组注释与识别的准确性。

图2 |  CellWhisperer 嵌入模型的基准测试:零样本预测细胞特征

a, 概念示意图:以零样本方式评估细胞类型预测性能。左为Tabula Sapiens数据集所有细胞的CellWhisperer嵌入 UMAP,颜色按专家注释细胞类型(真实值)标注;右为以自由文本查询“erythrocytes”得到的CellWhisperer评分在该UMAP上的投影(上)及红细胞与其他细胞的评分直方图(下)。

b, Tabula Sapiens(20 种常见细胞类型)数据集的专家注释(左上UMAP)与 CellWhisperer预测结果(左下 UMAP)对比,右侧热图为混淆矩阵,蓝色深浅表示预测比例。

c, 多种数据集与方法间细胞类型预测性能条形图(宏平均)。橙色:CellWhisperer 零样本预测;紫色:针对细胞类型预测微调后的 Geneformer scFM;灰色:基于标记基因的 CellAssign 方法。

d, CellWhisperer 对不同细胞特征(器官、组织、疾病)的零样本预测性能条形图,分别显示各类别及对应数据集的宏平均结果;黑色虚线为随机基线(AUROC = 0.5;准确率 = 1/类别数)。

在涵盖24种器官、共483,152个单细胞的Tabula Sapiens数据集中,CellWhisperer对20种常见细胞类型的区分AUROC达0.94(图 2b、c)。混淆主要发生在关系密切的亚型之间,如“单核细胞”与“经典单核细胞”,以及不同T细胞亚群(图 2b)。若将评估扩展至该数据集全部 177 种注释细胞类型,整体AUROC为0.91,但由于高度相似亚型众多,准确率相应降低(图 2c)。对于ImmGen联盟提供的免疫细胞批量RNA-seq数据(GSE227743)以及一项新近发表的亚洲人群免疫细胞scRNA-seq数据集,AUROC均高于0.99;在一项包含密切相关胰岛细胞类型且批次效应显著的人胰腺scRNA-seq荟萃分析中,AUROC仍达0.89(图 2c)。上述结果共同验证了模型的稳健性与泛化能力。

尽管CellWhisperer嵌入模型从未以“细胞类型预测”为专门训练目标(该能力源于学习转录组与其文本注释之间关联的通用任务),其零样本预测效果仍优于常用的标记基因法,并与三种专为细胞类型预测微调的单细胞基础模型(scFMs)表现相当(图 2c 及扩展数据图 2a)。此外,我们比较了在 CellWhisperer嵌入模型中用作表达编码器的Geneformer与另两种scFMs(scGPT和UCE),结果趋势一致(扩展数据图 2a)。

为检验CellWhisperer对其他细胞特征的预测能力,我们在零样本条件下评估其对疾病、组织和器官注释的预测性能。具体而言,我们从GEO收集到141,12例疾病相关转录组(未用于训练),针对其中229种疾病亚型进行预测,所得AUROC为0.82(图 2d),表明疾病预测难度高于细胞类型预测,但仍显著优于随机基线。同样,CellWhisperer对整体及单细胞转录组的组织来源预测亦优于随机:在Tabula Sapiens数据集中AUROC为 0.75,在Human Diseases数据集中AUROC为 0.87(图 2d)。

为评估模型捕获生物学过程的广度,我们考察其对8,812 条专家注释基因集的识别能力。以每条基因集的标签(如“colorectal cancer”)作为纯文本查询输入CellWhisperer,计算Human Diseases数据集中各样本与该查询的匹配得分;随后将该得分(完全不涉及基因集成员信息)与样本中对应基因集的表达富集度进行相关性分析(扩展数据图 2b)。简言之,我们检验CellWhisperer是否仅凭转录组-文本对比学习,便隐含地掌握了这些基因集所代表的生物学概念。结果显示,基因集标签的CellWhisperer评分与其表达富集呈显著正相关(扩展数据图2c、d 及补充表2),表明模型虽已不完美地学习到了大部分被测生物学概念,但训练过程中从未接触任何专家整理的基因集。

为进一步评估,我们采用已建立的整合与批次效应校正基准,在Tabula Sapiens数据集上测试模型区分生物学信号与技术噪声的能力。结果显示,CellWhisperer多模态嵌入在整合性能上优于单独使用转录组的Geneformer与scGPT;UCE则未从多模态训练中获益(扩展数据图 2e)。总体表现最佳的仍为标准版CellWhisperer,其转录组嵌入基于Geneformer。

最后,我们利用一套人类胚胎发育单细胞RNA测序数据集(详见下文),系统评估CellWhisperer嵌入模型对复杂提示及其措辞变化的鲁棒性。对同一查询的不同表述进行测试发现,所得CellWhisperer评分高度一致(扩展数据图 2f)。然而,已知 CLIP 类模型对提示词变化敏感,我们因此建议用户在实际分析中采用简洁、明确的查询语句,以获得最佳结果。

综上,多项独立证据——包括零样本预测细胞类型、疾病、组织与器官,数据集整合任务,仅凭标签预测基因集,以及对提示词变化的鲁棒性评估——共同表明:CellWhisperer嵌入模型仅基于“转录组-文本”配对训练,即可习得具有生物学意义的细胞状态与过程表征。

CellWhisperer 识别器官发育的标记基因

为展示 CellWhisperer 在复杂生物学场景中的应用价值,我们针对人类胚胎发育开展了跨队列荟萃分析。从文献中筛选并整合了6组独立的scRNA-seq数据集,共95,092个胚胎细胞样本,采集时间为受精后3–38天(未参与模型训练)。随后利用CellWhisperer对这些数据进行处理与注释(图 3a;交互分析平台:https://cellwhisperer./development)。

图3 | CellWhisperer基于人胚胎scRNA-seq数据的器官发育分析

a, 人类发育scRNA-seq数据集概览。利用GPT-4o将Carnegie阶段注释转化为查询,显示4 个关键发育时期的CellWhisperer 分热图;评分按所有细胞在各时间点的均值计算。

b, 查询词“heart”的CellWhisperer评分。计算各时间点所有细胞的平均评分,并按时间进行标准化(z 分数)。

c, 心脏发育标记基因的重叠分析。棕色:CellWhisperer鉴定的心脏发育标记;深灰:胎儿基因表达图谱中已报道的心脏特异标记;浅灰:随机选取的对照基因。左:维恩图给出比值比及Fisher精确检验P值;右:每基因与“heart”共同被PubMed提及的文献数量(Mann-Whitney U检验)。

d, 每基因与术语“heart”共同被提及的文献数量,按其在CellWhisperer 鉴定的心脏细胞中的表达富集程度分层。箱线内框示四分位距,须延伸至 1.5 倍四分位距内的最远点。对最右侧高富集但无相关文献的基因(红框)进行进一步验证。

e, Carnegie阶段8(Cs8)人胚胎的空间基因表达。左:两条CellWhisperer鉴定的心脏发育标记基因;中:已确立的心脏标记ISL1及心脏发育相关基因集;右:广泛表达基因GAPDH与脊索特异基因NOTO(脊索参考区以橙色标出)。基因表达以彩色点标示。

为检验CellWhisperer能否捕捉胚胎发育的时间动态,我们借助大语言模型对脊椎动物胚胎学描述进行汇总,生成对应四个关键发育阶段的查询语句。CellWhisperer返回的评分与这些阶段的预期发生时间一致(图 3a)。

随后,我们采用类似策略鉴定器官发育阶段:以10种器官名称为查询词(扩展数据图3a),并以“心脏”为例进行展示(图3b)。这些简洁文本查询在无预设基因列表的情况下,仍能逐步捕获器官发育相关基因的动态激活;其结果与胎儿基因表达图谱中定义的器官特异性标记基因表达模式一致(扩展数据图3a),验证了模型识别的可靠性。

CellWhisperer嵌入不仅可通过关联的描述性文本获得生物学解释,还能通过高评分基因直接解读。我们筛选出每个器官查询中CellWhisperer评分最高的基因作为其“模型标记基因”(附表3),发现与既往报道的器官特异标记基因显著重合(中位比值比3.3,图3c 及扩展数据图3b),证实嵌入空间捕获的生物学信号具有可解释性。

为进一步验证,我们查询PubMed生物医学文献数据库,统计CellWhisperer鉴定的器官标记基因与对应器官在同一篇论文中被共同提及的频率。结果显示,这些基因与器官共现的概率显著高于随机基因集,且与既往报道的器官标记基因共现频率相当;其中,两种分析共同鉴定出的基因共现频率最高(扩展数据图3b)。

对于每个器官,CellWhisperer分析均鉴定出至少10个既往器官标记基因研究未报道的新标记基因(附表3)。这些基因在本研究的PubMed共现文献分析中获得强有力支持(图3d 及扩展数据图3c)。此外,它们显著富集于对应器官特征性的生物学功能(以心脏为例见扩展数据图3d),并与已广泛应用的经典器官标记基因呈现高度空间表达一致性,该结果通过人原肠胚三维表达图谱得以验证(图3e)。

综上,我们仅使用简单文本查询(仅输入器官名称),将CellWhisperer应用于跨多个用户提供的scRNA-seq数据集进行标记基因发现这一常见且非平凡的任务,所获得的结果在精度上与既往报道的器官标记基因互补。

基于网页界面的scRNA-seq聊天式分析

为便于广大用户通过对话方式分析转录组数据,我们将CellWhisperer嵌入 CELLxGENE Explorer,新增由 CellWhisperer驱动的聊天框(图4a;https://cellwhisperer.)。CELLxGENE Explorer是一款交互式网络工具,可通过可视浏览、筛选及差异分析对单细胞数据进行常规解析。CellWhisperer 以自然语言探索功能补足其可视分析能力,具体包括:

自由文本检索满足用户指定属性的细胞;

对细胞聚类自动生成文本注释;

对交互选中的细胞开展聊天式深度追问。

总体而言,CellWhisperer通过集成聊天框与单细胞浏览器的可视特性,使用户能够以自然语言讨论细胞与基因。用法示例见补充说明1。

图4 | 利用 CellWhisperer 以交互式聊天方式探索 scRNA-seq 数据

a, CellWhisperer 网页工具示意截图,展示Tabula Sapiens数据集对自由文本查询“Show me structural cells with immune functions”的评分结果。

b, 放大视图:UMAP 上叠加 CellWhisperer 评分,高评分细胞簇被交互圈选并用于后续对话。

c, 与 CellWhisperer 就所选细胞(b 中标记)展开的聊天截图,提问为“Describe these cells”,回答已截取最相关部分(省略号表示截断);灰色注释为人工添加。

d, 将c中CellWhisperer提及的基因(IFITM3、ISG15、JUN、COL1A1、COL3A1、FOSB)在Tabula Sapiens数据集中的平均表达投影,使用CELLxGENE Explorer的gene sets功能实现。

在此,我们以人类器官图谱Tabula Sapiens数据集为例展示CellWhisperer的功能(图4)。我们先前研究发现,小鼠非造血结构性细胞中普遍存在免疫基因活性现象。为此,我们利用CellWhisperer聊天框输入查询“具有免疫功能的结构性细胞”,获得对应CellWhisperer评分,并以颜色编码叠加至Tabula Sapiens 数据集的UMAP可视化上(图4a、b)。评分最高的细胞包括内皮细胞、上皮细胞、成纤维细胞和周细胞(图4b),这些细胞类型已知或被认为具有免疫调节功能。

为深入探究这些细胞,我们依次在UMAP上用圈选工具选取CellWhisperer 评分较高的细胞簇,并在聊天框输入“Describe these cells in detail”。对于每个选中簇,CellWhisperer对话模型先计算簇内所有细胞转录组嵌入的平均值,再据此生成文本描述(图4a-c)。所得内容涵盖:

细胞类型、来源器官及发育阶段

偶尔提供供体信息(如性别)

高表达基因(如成纤维细胞中的胶原基因与基质金属蛋白酶基因)

生物学功能(如应激反应)

其他注释

描述中频繁提及所选细胞潜在的免疫功能,与我们最初的查询主题完全一致。

为获取这些细胞的更多信息,我们交互式选取其中一个高评分细胞簇,并连续提出两个追问:

1.“这些免疫功能可能具有什么生物学意义?”

2.“这些细胞中上调的基因与通路如何通过机制层面贡献于上述免疫功能?”

CellWhisperer给出了连贯的回答,进一步列出与选中细胞相关的关键基因及生物学功能(图4c)。作为可信度检验,我们将这些基因投影至UMAP,证实其在目标簇内高表达(图4d)。

最后,我们采用困惑度(perplexity)指标对CellWhisperer对话模型进行基准测试——该指标是评估大语言模型性能的常用标准。我们构建了两个具有生物学意义的对话测试集(方法部分),比较每对“问题-答案”与其匹配转录组及非匹配转录组的契合度。在包含200对问答的Evaluation Conversations数据集中,模型对匹配转录组的偏好率达90 %(扩展数据图4a),表明其能正确解读转录组嵌入并据此生成回答。此外,在Cell Type Conversations数据集中,大多数细胞类型标签均优先关联至其对应的匹配转录组(扩展数据图4b)。

进一步评估响应质量,我们比较了Mistral 7B LLM(CellWhisperer 对话模型基座)与更大规模的Llama 3.3 70B LLM的困惑度(扩展数据图4c)。即使在分布外的Cell Type Conversations数据集上,CellWhisperer仍获得最低困惑度,表明其对话模块有效融合了转录组嵌入。我们还检测了在提示词中额外列出高表达基因(纯文本LLM常用策略)是否能进一步提升性能:结果显示有轻微增益(扩展数据图4c),因此我们在网页工具中采纳了这种“嵌入+高表达基因列表”的混合方案。

综上,将CellWhisperer聊天框集成至CELLxGENE Explorer,为用户提供了友好的AI功能入口,并充分展示了可视检查与自然语言对话在单细胞数据交互式探索中的互补优势。

用户提供的scRNA-seq数据探索分析

为使用户能够用自己的转录组数据集运行CellWhisperer,我们构建了数据处理管道:输入bulk RNA-seq或scRNA-seq的原始计数矩阵后,自动计算 CellWhisperer嵌入与注释(源码详见 https://github.com/epigen/cellwhisperer)。处理结果保存为单一文件,可动态加载至用户本地部署的CellWhisperer实例,并便于分析结果的复现与共享。下文以一项典型分析为例——研究人类结肠干/祖细胞及其对炎症的反应(图5a–f),并与传统生物信息学分析流程(图5g–l)进行对比。所有分析均基于炎症性肠病患者病灶及邻近正常黏膜与健康对照的scRNA-seq数据。

图 5| 基于CellWhisperer的交互式scRNA-seq数据集和传统生物信息学分析

a, 在CellWhisperer中导入并探索用户提供的scRNA-seq数据。

b, 导入的“结肠上皮”数据集(含炎症性肠病患者炎症与非炎症活检及健康对照)经 CellWhisperer嵌入后的UMAP;簇标签由模型自动生成并紧凑排布(交互版:https://cellwhisperer./colonic-epithelium)。

c, 放大显示标记为“Cycling ileal epithelial precursor cells”的簇,并按自由文本查询“Show me stem cells”的CellWhisperer评分着色。

d, 与CellWhisperer就c中评分最高的前100个细胞进行聊天提问及回答。

e,  d中提及的LGR5基因在c所示簇内的表达水平。

f,  c查询条件下,炎症与非炎症来源细胞的CellWhisperer评分分布直方图。

g, 常规生物信息学分析流程概览。

h, 使用scVI进行批次效应校正前后的UMAP。

i, 采用CellTypist结合簇水平多数投票的细胞类型注释。

j, 取消簇水平投票后CellTypist标注的“Stem cells”亚群,叠加于i的UMAP。

k, 将 j 所得候选干细胞与其余所有细胞进行差异表达分析,基因按 log2 折叠变化排序,显著性阈值:双侧Wilcoxon检验P < 0.0001且|log2FC|≥1灰线);*** 校正P = 1.4×10-25。

l, 对j候选干细胞在炎症与非炎症组织中通用干性基因签名的差异表达分析;小提琴图内框示四分位距,须延伸至1.5倍四分位距,**校正P= 0.0024(单侧t检验)。

CellWhisperer自动生成的簇标签(图5a)为数据集提供了初始概览(图5b),识别出上皮细胞(“Cycling ileal epithelial precursor cells”“Large intestine goblet cells”)以及免疫细胞(“Activated CD8⁺T cells in intestine”“Mast cells expressing inflammatory marker genes”)。在“Cycling ileal epithelial precursor cells”簇内,我们以查询句“Show me stem cells”检索干细胞特征,发现该簇中一个细胞子集获得高评分(图5c)。后续与 CellWhisperer 的对话(图 5d)进一步提示,该簇包含表达 LGR5 的肠道上皮干细胞——已被广泛公认的肠道干细胞群体。正如预期,LGR5基因表达水平(图5e)与“Show me stem cells”查询的 CellWhisperer评分高度相关(图5c)。

我们进一步比较了CellWhisperer注释的上皮干细胞在炎症与非炎症结肠样本中的丰度,发现非炎症样本中“stem cells”查询的评分显著更高(图 5f)。结果提示,炎症性肠病患者的慢性肠道炎症对 LGR5⁺上皮干细胞具有负面影响,与原始研究结论及既往体外实验结果一致。关键之处在于,上述分析通过CellWhisperer以交互方式快速完成,图 5b–f 均为网页工具实时截图(https://cellwhisperer./colonic-epithelium)。

作为对照,我们尝试用常规生物信息学流程(自定义Python代码,5g)复现上述发现。首先从GEO下载并预处理基因表达矩阵,绘制UMAP(图5h,左)。由于数据存在显著批次效应(CellWhisperer分析中该问题较轻,因为其嵌入模型已内建批次校正能力,见图5a 与扩展数据图2e),我们采用scVI方法进行批次校正(图5h,右)。

随后,我们使用CellTypist软件进行细胞类型注释。采用其推荐参数时,无任何簇被标注为干细胞(图5i);当我们改用单细胞水平预测(而非簇水平多数投票)后,在瞬态扩增细胞大簇中识别出一小群被标注为干细胞的细胞(图5j)。这些细胞高表达LGR5(图5k),证实其为上皮干细胞。最后,我们基于已报道的干性基因集计算“干性评分”,发现炎症样本的评分高于非炎症样本(图5l),与CellWhisperer的结果一致。

这一常规生物信息学分析虽复现了交互式 CellWhisperer 的结论,但流程复杂且耗时:共需约400行自定义Python代码、调用5款专业软件,并依赖经验丰富的生物信息学者设计与执行。

综上,CellWhisperer可对scRNA-seq数据集进行快速初评,并以交互方式支持数据探索与假设生成;而传统分析则在精细控制和可追溯性方面更具优势。鉴于两者互补,我们预期基于聊天的分析将用于引导而非取代深度代码驱动的分析流程。

讨论Discussion

转录组分析已被广泛用于刻画细胞与组织的生物学状态,但其数据解析与生物学解释仍面临挑战。本研究提出以自然语言探索单细胞 RNA 测序数据的概念验证:通过多模态人工智能模型整合转录组图谱与生物学文本理解,并借助大语言模型驱动的聊天界面,实现细胞状态的交互式研究。

性能评估与应用示例共同表明,转录组-文本多模态模型可显著促进生物医学数据的探索性分析。CellWhisperer最适用于分析初期的探索与假设生成,关键结论仍需通过常规生物信息学手段复验。我们预期自然语言将成为生物医学数据交互分析的主流通道之一,与可视化检视及编程分析形成互补;并进一步设想,自然语言可作为人类可解读的整合层,使不同尺度的AI模型(分子、细胞、器官、个体基础模型等)围绕同一问题共享并融合其“观点”,从而推动多尺度、多模态数据分析的发展。

以 CellWhisperer 为代表的方法通过免除复杂语法负担,使数据探索更为流畅,并允许用户在交互分析过程中即时质询生物学知识。该方法显著降低准入门槛,尤其对无编程经验、且更倾向于使用自然语言而非计算机代码的生物学家具有吸引力。进一步将聊天功能与语音识别耦合,即可实现与人工智能的语音交互,适用于虚拟现实数据分析环境或视障研究人员。鉴于多数大语言模型已具备多语言能力,支持除英语外的其他语言在技术上完全可行。因此,采用自然语言进行数据分析有望推动生物信息学向更易用、更友好、更高效的方向发展。

CellWhisperer依托人工智能方法学的多项最新进展构建而成:

1.为建立涵盖一百万例整体与伪整体转录组且注释一致的训练集,我们调用通用大语言模型对社区级数据仓库进行AI辅助整理。

2.采用专用模态嵌入模型分别处理转录组(Geneformer)与文本(BioBERT)。

3.借鉴CLIP与LiT架构,设计转录组-文本多模态嵌入学习,为 CellWhisperer 模型与软件工具奠定基础。

4.受图像识别聊天机器人等LLM多模态应用启发,通过106,610条以转录组为中心的AI生成对话对通用大语言模型进行微调,实现单细胞RNA测序数据的聊天式分析。

5.CellWhisperer遵循基础模型范式:一次性在覆盖广泛生物学场景的大规模数据上训练完毕,无需额外训练即可应对多领域生物查询。

当前版本的CellWhisperer是一项“概念验证”工具,适用于单细胞RNA测序数据的交互式探索,但仍需审慎使用,具体局限如下:

1.与人类理解不同,CellWhisperer与其他大语言模型一样,并不真正“理解”用户问题或其自身回答;它仅基于大量“以转录组为中心的问答”训练数据学习如何延续对话。因此,该工具仅限于探索性分析,任何结果都必须经过独立验证,不可盲目采信。

2.CellWhisperer依赖领域专用模型进行转录组与文本嵌入,并借助大语言模型生成文本,因而继承了这些模型现有的全部局限。为使CellWhisperer能够随底层模型进步而持续受益,我们采用模块化软件架构,可便捷替换嵌入或生成模型。

3.聊天模型偶尔出现“幻觉”,最常见的是提供过度具体的样本来源信息(如“来自85岁男性的T细胞”)。该行为可能源于训练数据中类似文本的高频出现,可通过“人类反馈强化学习”或数据清洗(剔除虚假细节)加以改善。

4.CellWhisperer的性能上限由训练数据决定;对于公共数据库覆盖不足的生物学领域,其建模能力必然受限,类似模型亦面临同样问题。

鉴于对现代人工智能潜在风险的关切,我们评估后认为CellWhisperer的总体风险较低,因此可将其方法、模型及数据全流程向公众开放。最为相关的潜在风险在于:模型可能给出错误答案且未被及时核查,进而导致验证实验的资源浪费,更严重者可能被不加批判地纳入科学研究,影响结论可靠性。为降低该风险,我们明确将CellWhisperer定位为“探索性数据分析工具”,要求用户保持批判性思维,并强调关键结果必须通过独立实验或替代方法验证(如图5所示)。相比之下,我们未识别出对人身安全或环境的特定风险。鉴于单细胞RNA测序技术的复杂性与研究导向特征,CellWhisperer的结果被不加批判地用于临床诊断并由此伤害患者的可能性极低。此外,已有讨论关注AI工具是否可能加速生物威胁或生物武器的开发。由于CellWhisperer仅整合公共领域已开放的生物学数据与知识,且不提供任何用于化学分子、病毒或细胞设计的专用功能,我们认为其几乎不可能为恶意行为者提供实质性助力。

自 CellWhisperer 在会议论文及bioRxiv预印本中首次发表以来,已陆续出现多项与其目标一致的方法,旨在让基于文本的策略广泛服务于单细胞RNA测序数据分析。其中,LangCell采用与CellWhisperer嵌入模型类似的转录组-文本对比学习框架;C2S-Scale通过在高表达基因列表上微调大语言模型,实现细胞水平解读;BioDiscoveryAgents与 BioChatters则描述了基于大语言模型的智能体工作流,用于转录组数据分析。

尽管上述研究凸显了学界对“基于对话的转录组分析”的普遍兴趣,CellWhisperer仍在以下关键要素上保持独特性:

1.计算高效的多模态嵌入模型可同时为百万级单细胞提供注释——相比之下,Cell2Sentence对每条单细胞数据分别运行高成本LLM,且LangCell虽实现 CLIP式嵌入,却缺乏针对交互选定细胞的对话能力。

2.CellWhisperer以GEO与CELLxGENE Census为数据来源,经语义级LLM整理,覆盖逾2万项独立研究,呈现丰富的人类生物学场景;而多数相关研究仅依赖CELLxGENE Census(仅含数百项研究、约1 000份样本),且仅汇总预定义字段,未引入深度文本元数据。

3.CellWhisperer提供可直接运行的分析流程与Web界面,开创单细胞RNA测序数据解析的新范式,并已集成至广泛使用的CELLxGENE Explorer。

综上所述,CellWhisperer建立了一种用户友好的单细胞RNA测序数据探索范式,其核心在于基于自然语言的对话式分析。该方法利用AI模型模拟生物学家与生物信息学家之间以数据为中心的对话过程。我们预期,自然语言将成为生物学数据分析的通用通道,并构成未来AI驱动生物信息学研究助手的关键基石。

作者简介

Christoph Bock(通讯作者)

Christoph Bock 现任奥地利科学院CeMM分子医学研究中心首席研究员,兼任维也纳医科大学医学生物信息学教授。其研究以实验生物学(高通量测序、表观遗传学、CRISPR筛选、合成生物学)与计算方法(生物信息学、机器学习、人工智能)的整合为核心,聚焦癌症、免疫学及精准医学领域。2008–2011年于麻省理工学院与哈佛大学Broad研究所从事博士后研究;2004–2008年于马克斯·普朗克信息学研究所攻读博士学位并获博士学位。Bock同时担任CeMM与维也纳医科大学“生物医学测序平台”科学协调人、路德维希·玻尔兹曼罕见与未诊断疾病研究所(LBI-RUD)信息学团队负责人、欧洲学习与智能系统实验室(ELLIS)会士,并当选奥地利科学院青年院士。曾获多项重要学术奖项,包括马克斯·普朗克学会奥托·哈恩奖章(2009)、欧洲研究理事会(ERC)启动基金(2016–2021)、ERC巩固基金(2021–2026)及国际计算生物学会Overton 奖(2017)。文章累积被引逾47500次,H指数107。

信息来源:

https://www./web/index.php?id=688&res=Christoph_Bock

https://scholar./citations?hl=zh-CN&user=9qSsTcIAAAAJ

   翻译:尹春,安徽农业大学本科在读

   审核:朱志豪,广东医科大学,基因组所联合博士后

   终审:刘永鑫,中国农科院基因组所,研究员/博导

   排版:荀佳妮,中国农科院基因组所,生物信息学硕士在读

宏基因组推荐


本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)

iMeta高引 fastp PhyloSuite ImageGP2 iNAP2 ggClusterNet2
iMeta工具 SangerBox2 美吉2024 OmicStudio  Wekemo OmicShare
iMeta综述 高脂饮食菌群 发酵中药 口腔菌群 微塑料 癌症 宿主代谢

10000+:扩增子EasyAmplicon 比较基因组JCVI 序列分析SeqKit2 维恩图EVenn

iMetaOmics高引 猪微生物组 16S扩增子综述 易扩增子(EasyAmplicon)

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人