1 AI助力单细胞探索革命:CellWhisperer让“聊天”式分析成为现实

文章:Multimodal learning enables chat-based exploration of single-cell data

链接:https://www./articles/s41587-025-02857-9

代码:https://github.com/epigen/cellwhisperer

在最新一期《Nature Biotechnology》杂志上,维也纳医科大学等机构的研究团队联合发布了一项突破性成果——CellWhisperer。这是一款融合人工智能与单细胞转录组学的创新工具,首次实现了通过“聊天”方式与单细胞RNA测序数据进行自然语言互动分析,让复杂的生物信息学数据探索变得像与朋友对话一样简单直观。

CellWhisperer的核心亮点在于其多模态AI架构。研究团队首先对来自GEO和CELLxGENE等数据库的超过100万例人类转录组数据进行了标准化和AI辅助文本注释,涵盖了各种细胞类型、组织、疾病和实验条件。随后,他们采用了对比学习的方式,将转录组表达谱和对应的文本描述共同映射到一个统一的嵌入空间。这样,用户只需用自然语言提出问题,例如“肠道中的组织常驻T细胞有哪些?”或“这些细胞表达哪些基因?”,CellWhisperer便能自动检索、匹配并给出专业解读,甚至能对选中细胞群体进行详细注释和功能解释。

在模型实现上,CellWhisperer融合了转录组特征提取的Geneformer模型和生物医学文本理解的BioBERT模型,通过CLIP风格的架构实现了文本与基因表达的深度耦合。模型训练过程中,团队还利用LLM大模型(如Mistral 7B)生成了十万余条与转录组相关的问答对话,极大丰富了模型的生物学知识和对话能力。

研究人员对CellWhisperer进行了多维度的性能评估。在“零样本预测”测试中,CellWhisperer无需针对特定任务微调,即可准确预测未见数据的细胞类型、疾病状态、组织来源等,AUC指标在多个公开数据集上均达到业界领先水平。例如,在Tabula Sapiens等大型单细胞数据集上,CellWhisperer不仅能区分常见细胞类型,还能识别亚型和发育阶段。对于疾病预测和组织定位,模型同样展现出远超随机基线的能力。此外,CellWhisperer还能够通过简单的器官名称查询,发现与器官发育密切相关的新型标志基因,并通过文献共现分析和空间转录组数据进一步验证了这些新发现的科学价值。

更令人兴奋的是,CellWhisperer已集成进了CELLxGENE Explorer这一主流单细胞数据浏览平台。用户现在可以在网页端直接上传自己的数据,利用聊天窗口进行自由探索和互动分析。无论是查找特定功能细胞、自动为细胞群注释、还是追踪疾病相关基因表达变化,CellWhisperer都能实时给出解释和建议,大大降低了生物信息学分析门槛,让没有编程背景的生物学家也能轻松探索单细胞奥秘。

研究团队还将CellWhisperer定位为“探索性分析与假设生成的利器”。虽然它可以极大提升分析效率和创新性,但关键科学结论仍建议通过传统生物信息学流程加以验证。团队强调,CellWhisperer采用模块化设计,便于未来替换更强大的嵌入或语言模型,持续提升性能和适用范围。

2 “非典型淋巴母细胞”揭示儿童难治性T细胞白血病的关键预警信号

文章:A non-canonical lymphoblast in refractory childhood T-cell leukaemia

链接:https://www./articles/s41467-025-65049-8

T-cell acute lymphoblastic leukaemia (T-ALL) 是儿童最具挑战性的白血病类型之一,约占所有儿童急性淋巴细胞白血病的15%。相比B细胞型白血病(B-ALL),T-ALL不仅更为凶险,治疗失败和复发率也更高。尤其是“难治性”病例,即在诱导化疗后骨髓中仍有≥5%的白血病细胞残留(MRD),目前无法在诊断时有效预测,导致患者预后极差,五年生存率仅约50%。近日,《Nature Communications》刊登了一项来自国际团队的突破性研究,揭示了儿童难治性T细胞急性淋巴细胞白血病(T-ALL)背后的神秘细胞——“非典型淋巴母细胞”,并指出这一细胞类型或将成为疾病预警和个性化治疗的新希望。

研究团队对58名儿童T-ALL患者(共84份样本)进行了单细胞mRNA测序分析,涵盖了初诊、治疗后及复发等不同阶段。他们发现,部分难治性患者体内存在一种转录特征独特的白血病细胞——“非典型淋巴母细胞”,其核心标志是高表达ZBTB16基因。ZBTB16不仅是调控淋巴细胞分化的重要转录因子,还与细胞对药物的抗性密切相关。

令人惊讶的是,在部分患者的初诊样本中,这种ZBTB16高表达细胞只占极少数,但化疗后却迅速成为主导群体,显示出极强的生存和扩增优势。进一步分析表明,这些非典型细胞并非由常规白血病细胞进化而来,而是与常规细胞“平行进化”,具有独立的遗传变异和细胞谱系。这一发现颠覆了以往对白血病耐药机制的认识。

研究还通过流式细胞术验证了ZBTB16蛋白的检测方法,证明即使在临床常规检测中也能识别这些非典型细胞,为未来早期筛查和风险分层提供了现实技术路径。更重要的是,无论在英国本地队列还是国际临床试验(COG AALL0434)数据中,ZBTB16高表达都与治疗失败和生存率降低高度相关,远超传统的早期T细胞前体(ETP)等分型指标。

此外,团队还分析了这些细胞的表面抗原谱,发现部分现有靶向药物(如CD2、CD5)在非典型细胞中表达较低,提示未来药物开发需针对这些新型细胞靶点进行优化。研究还提出了多种潜在的新靶点,为难治性T-ALL的免疫治疗和精准医疗带来了新思路。

3 突破癌症进化谜题!CluVar新工具让单细胞RNA测序揭示肿瘤亚克隆“家谱”变得更精准

文章:CluVar: clustering of variants using autoencoder for inferring cancer subclones from single cell RNA sequencing data

链接:https://academic./bib/article/26/6/bbaf603/8324286

代码:https://github.com/h2w1/CluVar

CellWhisperer让聊天式分析成为现实;肿瘤亚克隆进化分析新工具;人类皮肤淋巴管“新地图”;新策略解析B细胞多样性 等

肿瘤组织其实由多个“亚克隆”细胞群组成,这些细胞在基因变异和功能上各不相同,形成复杂的进化关系。传统方法多依赖单细胞DNA测序(scDNA-seq),但其检测细胞数量有限,分辨率不足;而单细胞RNA测序虽能分析更多细胞,却因数据缺失率高、噪声大,难以有效推断亚克隆谱系。近日,新一代肿瘤亚克隆进化分析工具CluVar正式亮相,并在《Briefings in Bioinformatics》发表。研究团队创新性地利用深度学习自动编码器技术,首次让单细胞RNA测序(scRNA-seq)数据也能高效、准确地重建癌症亚克隆的进化树,为肿瘤异质性和耐药机制研究打开了新大门。

研究团队首先开发了一套完整的数据预处理流程,从公开癌症scRNA-seq原始数据出发,经过严格质控、细胞类型注释、二次比对和变异检测,最终形成每个细胞的突变矩阵。为应对scRNA-seq数据普遍存在的高缺失率,CluVar引入了“掩码损失函数”,在模型训练时自动忽略缺失值,让算法只关注真实有效的信息,大大提升了鲁棒性和准确性。

核心算法部分,CluVar采用自动编码器,将高维、稀疏的突变数据压缩到低维“潜在空间”,再结合解码器隐藏层输出,提取出最有代表性的结构特征。随后,CluVar利用贝叶斯高斯混合模型(BGMM)对这些特征进行聚类,精准识别不同亚克隆,并通过多数投票法确定各亚克隆的突变型谱,最终利用最简进化树算法重建肿瘤细胞的“家谱图”。

在大规模模拟数据测试中,CluVar展现了强劲性能。无论是聚类准确率(Adjusted Rand Index, ARI)还是进化树结构的还原度(Robinson-Foulds距离),CluVar都显著优于同类主流工具SCClone和bmVAE。即使在高噪声、错误率上升的环境下,CluVar依然保持稳定表现,充分证明了算法的抗干扰能力。

除此以外,CluVar在真实癌症样本中的应用也取得了突破性成果。团队分析了乳腺癌细胞系和胰腺癌临床样本,成功揭示了“主干-分支”式亚克隆进化架构。研究发现,药物敏感细胞主要集中在进化树的“主干”,而耐药细胞则聚集在“分支”,且伴随突变数量增加,细胞功能也发生明显转变。比如,乳腺癌耐药细胞富集了细胞周期、低氧反应等恶性通路,而胰腺癌转移细胞则表现出更强的金属解毒、炎症反应和免疫逃逸能力。这些亚克隆不仅在基因型上有差异,功能和转录组特征也高度对应,揭示了肿瘤进化与功能异质性的动态关联。值得一提的是,CluVar还集成了完整的分析流程和可复现的Snakemake管道,用户无需繁琐地整合多种工具即可一键完成数据处理、聚类和进化树重建,大大提升了科研效率和可操作性。

4 揭开人类皮肤淋巴管“新地图”:单细胞测序与3D成像发现全新细胞亚群与关键分子CD24

文章:Transcriptomics- and 3D imaging–based characterization of the lymphatic vasculature in human skin

链接:https:///jem/article/223/1/e20242353/278441/Transcriptomics-and-3D-imaging-based

近日,《Journal of Experimental Medicine》发表了一项由国际团队合作完成的重磅研究,首次通过单细胞转录组测序与三维成像技术,全面描绘了人类皮肤及皮下脂肪组织中的淋巴血管系统。这项研究不仅刷新了我们对人类淋巴系统结构和功能的认识,还发现了调控淋巴瓣发育的新分子CD24,为理解相关疾病如淋巴水肿等提供了全新视角。

研究团队采用高分辨率三维成像技术,对人类皮肤活检样本进行了深入观察。他们发现,与小鼠等常用模型动物不同,人类皮肤中的淋巴网络结构具有独特性。比如,传统认为在皮肤中常见的“收集器”型淋巴管及其肌肉细胞包裹,在人体皮肤中极为罕见,仅在极少数脂肪组织中偶有发现。这意味着人类皮肤的淋巴液回流机制与小鼠等动物存在本质区别。

在单细胞RNA测序分析中,研究人员对2万余个人类皮肤及皮下脂肪组织来源的淋巴内皮细胞(LECs)进行深入剖析,鉴定出七种不同的亚群。这些亚群包括毛细管型、预收集器型、收集器型、瓣膜型及增殖型LECs。特别值得一提的是,团队首次发现了两种位于瓣膜叶片上下游的特殊LEC亚群,并通过基因表达谱揭示了它们在解剖位置和功能上的差异。

更令人兴奋的是,研究发现CD24分子是定位于瓣膜上游LECs的高度特异性标志物。后续在小鼠模型中的功能实验表明,CD24不仅是分子标记,更直接参与了淋巴瓣的正常发育过程。这一发现为未来靶向调控淋巴瓣功能、治疗相关疾病提供了潜在分子靶点。

三维成像进一步揭示,人类皮肤的淋巴网络中LYVE-1阳性的预收集器血管比例很高,且广泛分布有带瓣膜的血管,甚至在盲端毛细管附近也能见到瓣膜结构。与小鼠相比,人类皮肤中的LECs在细胞连接方式和形态上呈现混合特征,既有“按钮样”也有“拉链样”连接,显示出更复杂的调控机制。此外,研究还指出,剪切应力等机械信号可能影响瓣膜上下游LECs的基因表达差异。在功能上,这些不同亚群的LECs不仅参与液体回流和淋巴引流,还可能在免疫调节、细胞外基质结合等方面发挥重要作用。

总的来看,这项研究不仅为人类淋巴系统的基础研究提供了详细的“细胞地图”,还揭示了与模型动物的根本差异,推动了我们对皮肤免疫、体液调控及相关疾病发生机制的理解。

5 优化多重抗原标记与单细胞测序技术,系统解析人类B细胞多样性及免疫反应机制

文章:Leveraging optimized oligonucleotide-tagged antigen assemblies and single-cell sequencing for multiplexed proteogenomic profiling of human B cell reactivities

链接:https://academic./jimmunol/advance-article/doi/10.1093/jimmun/vkaf301/8321433

在传统免疫学研究中,科学家们通常通过检测抗体水平来评估机体对疫苗或病原体的反应。然而,这种方法往往忽略了B细胞本身的多样性和复杂性,特别是那些数量极少、但极为关键的抗原特异性B细胞。近日,《Journal of Immunology》刊发了一项突破性研究,国际团队创新性地结合优化的寡核苷酸标记抗原组装与单细胞测序技术,实现了对人类B细胞多重抗原反应的高通量、精准蛋白基因组分析。这样,研究团队能够在一次实验中并行分选多种抗原反应的B细胞,并利用单细胞测序技术对每一个细胞的BCR序列、转录组以及表面蛋白表达进行全面分析。

研究人员首先优化了抗原与链霉亲和素的比例,发现这一参数对于提升抗原组装的染色效率至关重要。在新冠病毒(SARS-CoV-2)刺突蛋白抗原的检测中,优化后的组装方案显著增强了对低频抗原特异性B细胞的识别能力。更令人兴奋的是,团队开发出双标记策略,将寡核苷酸和荧光标签同时应用于抗原组装,大幅提高了检测灵敏度,使得对自然感染者体内极为稀少的登革病毒反应性B细胞也能被准确捕获。

为了最大限度保留珍稀抗原特异性细胞,研究团队将所有染色步骤提前至细胞分选之前,并采用磁性富集技术预处理样本,有效减少了细胞损失。经过流式分选后,这些标记的B细胞被直接送入单细胞测序平台,实现了对每个细胞的多模态分子特征解析。数据显示,从分选到最终获得高质量测序数据,超过20%的稀有抗原特异性B细胞得以成功分析,远高于以往同类技术的回收率。

该技术不仅能够同时分析多种抗原反应,还能揭示不同B细胞亚群在复杂免疫反应中的协同作用。研究人员指出,在疫苗研发和疾病防控领域,全面解析B细胞对多种抗原和表位的反应,有助于评估疫苗的广谱保护力,预测病毒变异带来的免疫逃逸风险,并为个体化疫苗设计提供科学依据。尤其是在HIV和新冠等重大传染病领域,精准识别和定量分析特定B细胞亚群,将为开发更有效的免疫干预策略提供强大工具。

此外,研究还发现,双标记策略在检测极低频抗原反应性细胞时表现尤为突出,为今后探索恶性肿瘤、自身免疫疾病等复杂免疫反应提供了技术保障。随着该方法不断优化和推广,未来有望在临床免疫监测、疫苗评估、疾病预测等多个领域发挥重要作用。