ASPEN揭秘单细胞等位基因表达调控;中国免疫多组学图谱;CASSIA自动细胞注释系统;CONCORD单细胞整合算法、SPLISOSM揭示脑区“剪接密码”

1 ASPEN:揭开单细胞等位基因表达调控的神秘面纱

文章:ASPEN: Robust detection of allelic dynamics in single cell RNA-seq

链接:https://journals./ploscompbiol/article?id=10.1371/journal.pcbi.1013837

R包:https://github.com/ewonglab/ASPEN

在基因表达调控领域,单细胞RNA测序技术带来了前所未有的解析力,但由于数据稀疏和技术噪音,等位基因层面的研究一直面临巨大挑战。近日,澳大利亚和美国团队联合开发了一款名为ASPEN的全新统计方法,为单细胞等位基因表达的检测和分析注入了强劲动力。该成果发表在《PLoS Computational Biology》杂志。

ASPEN的最大亮点在于显著提升了等位基因失衡(即同一基因来自父母的两个版本表达比例不均)的检测灵敏度,达到了比现有方法高出约30%的水平。研究团队通过创新设计,整合了敏感的测序数据映射流程、调节型Beta-二项式统计建模,以及自适应的参数缩减技术,让ASPEN不仅能稳定地估算等位基因表达均值,还能首次在单细胞水平上量化等位基因表达的方差——即表达波动性。

在实际应用中,ASPEN被用于分析小鼠脑类器官和T细胞的单细胞数据。研究发现,许多“管家基因”——这些维持细胞基本功能的核心基因——在不同细胞之间表现出极低的等位基因方差,说明它们的表达受到极其严格的调控控制。相比之下,参与脑发育和免疫反应的基因则展现出更高的表达波动性,提示这些基因在不同细胞状态下具有更大的调控灵活性和适应性。

ASPEN还成功识别了随机单等位基因表达(RME)现象,即某些基因在单个细胞中只表达父本或母本的一个版本,而不是两个都表达。这种现象在神经细胞和免疫细胞中尤为突出,并且ASPEN能有效区分真正的生物学信号和技术噪音,避免误判。此外,ASPEN还检测到了不完全X染色体失活的基因,揭示了女性细胞内X染色体调控的复杂性。

在T细胞激活和分化过程中,ASPEN揭示了等位基因表达的动态变化。随着T细胞从初始状态向效应和记忆状态转变,等位基因表达的方差逐渐下降,显示出转录调控越来越精确。这一发现为理解免疫细胞功能专一化和疾病相关基因调控提供了新视角。

ASPEN的统计框架采用了贝叶斯缩减和局部回归等先进算法,能够根据基因表达水平自适应调整参数,最大限度减少技术噪音对分析结果的影响。无论是模拟数据还是真实样本,ASPEN都展现了卓越的准确性和灵敏度,尤其在检测低方差基因和动态调控变化方面表现突出。

2 十万级免疫细胞大数据揭开疾病机制,AI赋能中国免疫图谱引领精准医疗新纪元

文章:Chinese Immune Multi-Omics Atlas

链接:https://www./doi/10.1126/science.adt3130

2026年1月,来自国家基因组与多组学技术重点实验室(BGI-Research牵头)联合上海交通大学医学院瑞金医院、山西医科大学等多家临床与学术机构的研究团队,在《科学》(Science)杂志正式发布了中国免疫多组学图谱(CIMA)。这项开创性的研究通过整合单细胞转录组、单细胞染色质可及性、全基因组测序以及血浆代谢组、脂质组和临床生化等多维数据,首次为中国成年人免疫细胞的多样性和调控机制绘制了高清参考图谱,为精准免疫治疗和复杂疾病的研究提供了坚实的数据基线。

本研究以428名年龄在20至77岁的健康中国成年人为对象,采集并分析了超过1000万外周血免疫细胞。在严格质控后,研究人员获得了650万高质量单细胞RNA测序数据和380万单细胞ATAC测序数据。如此大规模的数据使团队能够识别出73种免疫细胞类型,其中包括频率低于0.1%的罕见细胞群体,并首次揭示了随年龄和性别变化的免疫细胞亚群和分子特征,填补了以往研究在东亚人群免疫多样性上的空白。

利用多组学数据,团队构建了增强子驱动的基因调控网络,系统性地梳理了61个免疫细胞亚型中关键转录因子、调控元件和靶基因之间的复杂关系。研究共识别出404个增强子关联调控单元,涵盖84625个调控区域和13645个靶基因。这些网络揭示了免疫细胞身份如何被转录因子精细调控,为理解疾病相关基因变异的作用机制提供了新视角。

在遗传层面,研究团队通过全基因组测序,首次将遗传变异与免疫细胞类型特异性表达和染色质可及性精准对接,发现了9600个表达基因(eGenes)和52361个染色质可及性峰值(caPeaks),其中近三成eGenes和过半caPeaks仅出现在单一免疫细胞类型,说明许多疾病相关遗传效应并非“全血”分布,而是集中在特定免疫细胞亚型中。通过统计建模和孟德尔随机化分析,团队还将遗传变异与154种血液生化、代谢、炎症及免疫相关疾病风险精准关联,识别出1196个显著的多效性遗传关联。例如,rs34415530变异影响CD4 Treg-FOXP3细胞中特异性调控因子IKZF4的表达,同时与血浆IL-12B蛋白水平和哮喘易感性相关,为非编码风险变异如何介导疾病发病提供了生物学假说。

本研究还创新性地推出了CIMA细胞语言模型(CIMA-CLM),结合染色质序列特征与单细胞基因表达数据,能够高精度预测染色质可及性,并评估非编码遗传变异的功能影响。CIMA-CLM在32种免疫细胞类型上的实验一致性极高,相关系数达0.8951,AUROC达0.9560。该AI模型不仅可模拟突变对调控网络的影响,还为疾病相关变异的功能探索提供了全新计算途径。团队还计划将CIMA与更广泛的基因组基础模型(如Genos)融合,打造从DNA序列到细胞功能的多层可解释智能预测体系,加速生命科学和医学创新。

目前,CIMA的细胞类型特异性调控网络为理解动脉粥样硬化、2型糖尿病等复杂疾病的免疫-代谢机制提供了关键线索,并且CIMA第二阶段已正式启动,研究范围将从健康人群扩展到重大疾病队列,包括自身免疫病、心血管病和感染性疾病。团队将利用更先进的空间组学和蛋白多重检测技术,系统揭示疾病发生和进展的免疫机制,寻找新的诊断和治疗靶点,并构建更精准的“虚拟细胞”模型,实现疾病的数字化预测和干预策略。

3 CASSIA自动细胞注释系统让单细胞分析更高效、更透明

文章:CASSIA: a multi-agent large language model for automated and interpretable cell annotation

链接:https://www./articles/s41467-025-67084-x

  • Web Interface: https://o
  • Documentation: https://docs.o
  • GitHub: https://github.com/ElliotXie/CASSIA
  • Benchmark: https://

细胞类型注释一直是单细胞RNA测序分析中最关键、最耗时的步骤之一。近日,威斯康星大学麦迪逊分校的研究团队在《Nature Communications》发表了创新工具——CASSIA(CollaborativeAgentSystem for Single-cell Interpretable Annotation),这是一套集多智能体大语言模型于一体的新型自动化注释框架,能够在不依赖参考数据库的情况下,为单细胞数据提供高质量、可解释的细胞类型注释。

CASSIA的核心优势在于采用了五大AI智能体协同工作,模拟专业生物信息学家的思考流程。用户只需输入物种、组织类型和标记基因等基本信息,注释智能体便会通过六步推理流程,系统分析标记基因表达,识别出细胞类型和亚型。随后,验证智能体会检查标记基因与细胞类型的一致性,发现可能存在的混合细胞群。如果初步结果未通过验证,系统会自动回传至注释智能体进行迭代优化,确保注释质量。格式化智能体将分析结果标准化输出,评分智能体则基于细胞本体学和置信度对注释结果打分,最后报告智能体生成详细的交互式HTML报告,完整记录注释过程和推理细节,实现全流程透明可追溯。

CASSIA突破了传统方法对参考数据集的依赖,仅需标准单细胞分析工具(如Seurat、Scanpy)输出的标记基因表达数据即可开展注释,无需额外的图谱或数据库匹配。这使得CASSIA能够灵活适应不同物种、组织和实验条件,极大拓宽了单细胞分析的应用范围。系统支持多种主流和本地大语言模型,包括OpenAI GPT-5.2、Anthropic Claude、Google Gemini等,同时兼容Ollama、LM Studio等本地部署方式,既保障数据隐私,又能节省API成本。

除了核心注释流程,CASSIA还配备了多项高级功能。面对置信度低或复杂难判的细胞群,注释增强智能体会自动回顾历史推理、提出新假设并测试更多标记基因,从而提升准确率。检索增强生成(RAG)智能体能够自动查找细胞本体、标记数据库和最新文献,辅助识别罕见或新型细胞类型。系统还可通过多次注释和投票机制量化不确定性,支持多模型共识讨论和亚群层次分析,帮助科学家深入解析异质性细胞群体。

CASSIA已在多种组织和物种中通过基准测试,显示出优于同类无参考注释工具的准确性和效率。其开放的Web界面(o)、原生R和Python包以及批量处理功能,极大提升了单细胞数据分析的易用性和可扩展性。用户可获得结构化CSV预测结果、完整推理记录的JSON文件,以及可视化的HTML报告,便于后续数据挖掘和分析。

4 CONCORD算法:单细胞数据整合新突破,助力揭示细胞命运全景图

文章:Revealing a coherent cell-state landscape across single-cell datasets with CONCORD

链接:https://www./articles/s41587-025-02950-z

代码:https://github.com/Gartner-Lab/Concord

单细胞测序技术正在以前所未有的分辨率描绘生命的复杂图谱,但数据整合与批次效应一直是科学家面临的巨大挑战。近日,《Nature Biotechnology》刊登了由Qin Zhu等人团队开发的创新算法——CONCORD。这一统一框架通过自监督对比学习,巧妙解决了数据批次整合、降噪和维度降低等核心难题,为单细胞领域带来了革命性的进步。

CONCORD的最大亮点在于其极简设计与强大功能的结合。它仅需一个单隐藏层的神经网络,不依赖复杂架构和外部监督,却能超越现有主流方法(如Harmony、Seurat、scVI等)的表现。传统方法在处理多批次、多技术甚至跨物种数据时,常因假设过多或过度校正而丢失真实生物信号。而CONCORD则通过“硬负采样”和“数据集感知采样”策略,训练模型时优先选择同一数据集内的细胞进行对比,同时聚焦于彼此相似但细微不同的细胞,从而既保留了细胞间的细微差异,又有效消除了批次效应。

在多组模拟和真实数据集测试中,CONCORD表现出色。无论是清晰分离的细胞类型、复杂的分支发育轨迹,还是周期性细胞状态,CONCORD都能准确还原其拓扑结构,而且降噪效果显著。尤其是在秀丽线虫胚胎发育的案例中,CONCORD不仅重建了完整的谱系分化和汇聚过程,还能跨物种(C. elegans与C. briggsae)进行高分辨率的细胞状态对齐,远超现有工具的能力。更令人惊喜的是,CONCORD无需针对不同数据类型做复杂预处理,仅用简单的归一化方法就能在单细胞ATAC-seq、空间转录组等多模态数据中实现高质量整合与注释。

在哺乳动物肠道发育研究中,CONCORD成功解析了细胞周期与分化轨迹的交织结构,揭示了肠道上皮细胞的空间分区、肠神经系统的分支发展,以及间充质细胞的多样性。其潜在空间不仅支持三维可视化,还能通过梯度归因方法,揭示特定细胞类型的基因共表达程序,帮助科学家理解基因调控网络与细胞命运的关系。

CONCORD的高效算法设计,使其可在普通计算资源下快速处理百万级细胞数据,为构建全器官、全物种甚至跨技术的细胞图谱提供了坚实基础。其通用性和可扩展性也为未来更复杂的神经网络和多模态整合方法铺平了道路。

5 SPLISOSM揭示脑区“剪接密码”:空间转录组学助力理解大脑多样性与肿瘤机制

文章:Mapping isoforms and regulatory mechanisms from spatial transcriptomics data with SPLISOSM

链接:https://www./articles/s41587-025-02965-6

代码:https://github.com/JiayuSuPKU/SPLISOSM

在大脑这个极其复杂的器官里,基因表达的多样性不仅体现在基因层面,更深藏于RNA剪接和异构体的空间分布。近日,《Nature Biotechnology》报道了哥伦比亚大学Raul Rabadan团队开发的新方法SPLISOSM(spatial isoform statistical modeling,空间异构体统计建模),首次系统性地揭示了哺乳动物大脑乃至肿瘤组织中的空间转录多样性和调控机制,为脑科学和肿瘤研究带来颠覆性进展。

SPLISOSM的最大创新在于它能直接从空间转录组学数据中识别出基因的不同异构体(剪接或3'端多样性)在组织中的空间分布模式。以往大多数空间转录组分析只关注基因整体表达,忽略了剪接和异构体信息,导致我们对大脑区域复杂调控网络的认识极为有限。SPLISOSM采用多变量非参数核测试,既解决了异构体表达间的依赖性,也克服了空间数据稀疏和零表达点多的问题,实现了高效、精准的空间异构体分析。

在小鼠大脑的研究中,SPLISOSM检测到超过1000个空间变异的转录多样性事件,尤其集中在与突触信号传导和神经精神疾病相关的基因上。例如,Clta、Snap25、Stxbp1等基因的剪接和3'端多样性在不同脑区有明显空间分布,影响神经元的信号传递和塑性。进一步分析发现,这些空间剪接模式与区域特异性的RNA结合蛋白(如RBFOX、CELF、QKI家族)密切相关,揭示了大脑区域性调控的分子基础。值得注意的是,这些剪接调控不仅在小鼠大脑中存在,还在人体前额叶皮层样本中高度保守,表明空间转录多样性是哺乳动物大脑进化的重要特征。

SPLISOSM还应用于人类胶质母细胞瘤的空间转录组数据,发现肿瘤微环境中抗原呈递和细胞粘附相关基因的异构体分布高度多样,且与肿瘤细胞所处的微环境密切相关。研究团队提出,肿瘤可能通过改变这些基因的剪接方式,实现对免疫系统的“隐身”,为肿瘤免疫逃逸机制提供了新的分子线索。此外,胶质母细胞瘤中的转录多样性还涉及细胞骨架和信号传导相关基因,反映了肿瘤细胞与周围环境的复杂互动。

技术方面,SPLISOSM不仅在长读长和短读长空间转录组平台上表现出色,还能跨平台验证空间异构体事件的真实性。研究显示,空间异构体多样性并非技术噪音,而是组织结构和功能分区的核心分子基础。比如,空间3'端多样性(TREND)不仅限于非编码区,还影响蛋白编码区,导致脑区特异性蛋白变体的产生,进而影响神经元功能和疾病易感性。

更令人兴奋的是,SPLISOSM揭示了RNA结合蛋白之间的协同调控机制。例如,RBFOX和CELF家族蛋白在不同细胞类型和脑区中对剪接事件的调控相互作用,有时呈现竞争,有时协作。通过与敲除实验和序列结合数据对比,研究团队发现这些蛋白调控网络的复杂性远超以往认识,为理解脑区特异性基因表达调控和疾病机制打开了新思路。