研究背景
肿瘤微环境(TME)主导肿瘤的发生、进展与治疗应答。单细胞与空间组学虽揭示了免疫/基质细胞的丰度与功能差异,但仍存在三大难题:
其一,跨癌种、跨疾病阶段是否存在可复用的“表型相关”细胞类型尚不明确;
其二,细胞互作如何在空间上组织为稳定的生态型(ecotype)认识不足;
其三,既往基质细胞研究受限于样本与细胞量,难以系统解析并与免疫浸润、预后建立普适联系。
该研究整合103项研究、36种癌、约448万细胞,构建TabulaTIME,统一注释6大谱系与56个亚型,并联动空间与bulk数据,从时空维度识别并定位广泛存在的促纤维化生态型(如CTHRC1⁺ CAFs 与 SLPI⁺ 巨噬细胞),为TME分解、注释与疗效关联提供可复用的资源与分析框架。
样本与检测
单细胞转录组(scRNA-seq,公开数据整合)
汇总 103 项研究、36 种癌症、746 位供者、合计 4,483,367 个细胞,覆盖相邻正常、癌前、原发、转移及 PBMC 等 22 个组织来源;其中 16 个数据集来自已治疗人群(PD-1/PD-L1 免疫治疗、化疗、靶向及联合治疗)。用于构建 TabulaTIME 并统一注释与整合分析。
空间转录组(ST,公开数据)
自 GEO 收集 6 种癌症、62 位个体 的 ST 数据,结合单细胞图谱进行去卷积与空间定位(含 10x Visium 等)。
Bulk 转录组与临床结局(公开队列)
来自 TCGA 的 23 种癌症、8,743 位个体 RNA-seq 数据用于基于细胞类型特征的去卷积、分型与生存分析;并以 METABRIC 乳腺癌 1,992 位个体 作为外部验证。
组织学验证(研究者自采样本)
多重 IHC(mIHC)验证 7 例 实体瘤切片,癌种包含 NSCLC、HNSCC、CESC,用于验证 CTHRC1⁺ CAF 与 SLPI⁺ 巨噬细胞 的共定位与空间生态型特征。
结论详解
TabulaTIME 资源与整合概览
框架自多源数据汇聚起步:统一基因命名并完整整理元数据(癌种、疾病阶段、治疗状态、取材部位/血液来源等),对单细胞进行严格质控(如基因数/UMI、线粒体比例、双细胞剔除),随后在各数据集内先构建 kNN 邻域并将相邻细胞聚合为 MetaCell(约每 30 个细胞为一体),以降低噪声与算力开销,同时保留细胞状态的局部拓扑。其后进行全谱系整合,将不同研究与平台对齐到统一嵌入空间,初步分出免疫与基质两大区室及若干主谱系;在此基础上对每条谱系执行谱系内精细整合与聚类,通过分辨率筛选与稳定性评估获得稳健亚群,并结合标记基因/差异分析/标签迁移完成一致化注释。对每个亚型提取特征基因集(signature)并构建基准矩阵,用于后续三项联动:其一,bulk 反卷积(如 TCGA/METABRIC)以评估亚型丰度与生存结局/免疫浸润关联;其二,空间转录组映射定位关键亚型在肿瘤—正常边界及肿瘤内部的组织分布;其三,在全景图谱上构建并比较生态型(ecotype)。全流程辅以批次效应评估、下采样/留出验证与资源开放,确保跨癌、跨平台的稳定性与可迁移性(figure 1a)。
数据纳入层面共整合 103 项研究、36 种癌症、746 位供者、4,483,367 个细胞;样本覆盖相邻正常、癌前、原发、转移与外周血 PBMC 等 22 类来源,并包含 16 个已治疗人群数据集(免疫治疗、化疗、靶向及联合)(figure 1b)。
整合后共得到 140,072 个 MetaCells 并进一步以 CCA 纠正批次;在全景 UMAP 中,按细胞类型与样本来源着色均呈现良好混合,同时免疫区室与基质区室清晰分离,并注释为七大谱系(细胞毒性淋巴细胞、常规/调节性淋巴细胞、B 细胞、髓系、成纤维细胞、内皮细胞、上皮样细胞);后续分析聚焦免疫与基质两大区室(figure 1c)。代表性标记基因点图显示各谱系(如 Mono/Macro、DC、T_reg、CD4^+ T_conv、T_prolif)具有预期的表达比例与强度,支持注释可靠性(figure 1d)。

泛癌免疫细胞异质性及促纤维化TAM
在谱系内精细整合后,本研究首先解析细胞毒性淋巴细胞:UMAP 展示了 10 个亚型的分布(figure 2a),其细胞毒与耗竭特征呈反向梯度(figure 2b)。在来源层面,GZMK⁺ 记忆效应 CD8 T(CD8Tem_GZMK)在癌前样本显著富集,而外周血/相邻正常富集初始 CD8T(CD8Tn_CCR7)(figure 2c)。
进一步转向髓系区室,作者分辨了 12 个单核/巨噬亚群与 DC 亚群(figure 2d),用功能签名热图刻画其吞噬、抗炎/促血管生成、ECM 重塑等差异(figure 2e),并在来源与癌种层面量化各亚群比例(figure 2f–g)。
通过 NMF 推断 3,751 个表达程序并归纳为功能 meta-programs(figure 2h),发现 SLPI⁺ 巨噬(Macro_SLPI)在 EMT、黏附等“促纤维化”程序上得分最高(figure 2i),其发育轨迹独立于吞噬型与抗炎型巨噬(figure 2j)。在 TCGA 外部验证中,Macro_SLPI 高分与 ESCA、SKCM 的较差生存显著相关(figure 2k),提示“促纤维化 TAM”作为关键线索贯穿多癌种免疫生态。
CTHRC1⁺ 成纤维细胞的跨癌普遍性与功能画像
在基质区室,作者将成纤维/肌成纤维细胞分解为多个亚型并在 UMAP 上定位(figure 3a),以标记基因点图与功能坐标系确立 eFibro_CTHRC1 为 ECM 重塑主导型,而 eFibro_SFRP1、iFibro_IL6 等分别偏免疫调控或抗原呈递轴(figure 3b–c)。
在来源与癌种层面,eFibro_CTHRC1 在肿瘤样本中普遍富集(figure 3d),且在多癌种均占较高比例(figure 3e)。通路富集显示其显著激活 EMT、ECM 受体互作、黏附 等通路(figure 3f),并伴随代谢活性改变(figure 3g)。在 TCGA 队列的生存分析中,eFibro_CTHRC1 高分与 KIRC、BLCA 等癌种的不良结局相关(figure 3h),指向该亚型的跨癌致病共性。
CTHRC1⁺ 成纤维细胞定位于肿瘤—正常“前沿带”并关联免疫受限
结合空间转录组,作者在病理切片上完成肿瘤/过渡/正常区段划分,并映射 eFibro_CTHRC1 分数,呈现出沿边界带的“带状富集”(figure 4a)。跨数据集的统计显示,eFibro_CTHRC1 分数与“到肿瘤边界的距离”呈显著负相关,且在成纤维细胞比例较高样本中相关更强(figure 4b–c)。
在多重免疫荧光中,CTHRC1 信号环绕肿瘤边缘(HNSCC/NSCLC 等)(figure 4d)。在免疫关联上,eFibro_CTHRC1 富集与多种免疫标志呈负相关,提示其与免疫浸润受限相伴(figure 4e–f)。配体–受体层面,作者突出 LGALS9–CD44 等配对,连结 eFibro_CTHRC1 与 Treg/耗竭 T 等免疫抑制轴(figure 4g–h),为“空间屏障 + 免疫抑制”机制提供线索。
“促纤维化生态型”:eFibro_CTHRC1 与 SLPI⁺ 巨噬的空间共位与分子互作
在 ST 切片上,eFibro_CTHRC1 与 Macro_SLPI 在空间上呈并行带状分布(figure 5a),二者签名分数显著正相关(figure 5b),该相关性在跨癌多数据集中得到重复(figure 5c)。
mIHC 共染进一步验证在 HNSCC 与 NSCLC 中两者的共定位(PanCK/CD68/SLPI/SPP1/CTHRC1)(figure 5d)。配体–受体活性分析显示,eFibro_CTHRC1 倾向分泌 TGFB1、OSM、COL 系列配体等,Macro_SLPI 富集 LGALS9、IL1 家族、SPP1 等信号(figure 5e),共同指向 ECM 重塑与免疫抑制通路的耦合。作者据此提出“促纤维化生态型”工作模型:肿瘤前沿带由 CTHRC1⁺ CAF 与 SLPI⁺ TAM 组成的功能单元,塑造不可渗透的基质屏障并重编程局部免疫(figure 5f)。
内皮细胞异质性补全“免疫—基质—血管”图谱
作者将内皮细胞细分为毛细/静脉/动脉等多个亚群(如 capEndo_RGCC、lymEndo_PROX1、venEndo_VCAM1 等),并绘制 UMAP(figure 6a)。不同亚群在 ECM、抗原呈递与 tip 细胞等签名上呈现分化轴(figure 6b–d),其比例随来源(血/正常/癌前/肿瘤/转移)显著变化(figure 6e),并在多癌种出现不同富集格局(figure 6f)。配体活动分析提示 capEndo_RGCC 可能通过 VEGFA、FGF、HGF、ANGPT 等信号与免疫/基质细胞互作(figure 6g),强调血管成分在“促纤维化—免疫抑制”生态中的协同角色。
宏观生态型图谱:免疫活性、肿瘤纯度与预后
在样本层面,作者将免疫、髓系与成纤维等特征与生存结局联动,得到跨癌的“高/低风险”关联热图:不同 T 细胞与 NK 签名多与更长生存相关,而 THBS1⁺/SLPI⁺ 巨噬、CTHRC1⁺ 成纤维等倾向于高风险(figure 7a–c)。基于这些特征,在 bulk 队列上无监督聚类得到五类肿瘤生态型(DHP、DLP、AIHS、AILS、NIHS),各自呈现不同的免疫活性、肿瘤纯度与浸润水平(figure 7d–g),并在不同癌种中的分布存在偏好(figure 7h)。在 SKCM 与 BRCA 等外部验证中,生态型之间的生存差异显著(figure 7i),为“宏观生态分型—预后评估”的转化应用提供依据。
资源落地:生态型分解与自动注释的两类应用示范
作者给出两类即插即用的应用路径:其一,利用 TabulaTIME 的特征基因集对 bulk 转录组进行“生态型”分解,按样本聚类得到与图7一致的参与者亚型(figure 8a,上);其二,基于 TabulaTIME 进行细胞类型自动注释,通过“预训练 + 微调”在外部乳腺癌与肺癌数据上取得更高准确度,相比其他参考图谱具有优势(figure 8a,下;figure 8b–c)。这表明 TabulaTIME 既可服务于 人群层面的生态型研究,也可作为 研究者样本的注释参考,具备良好的可迁移性与实用价值。
小结
本研究构建泛癌单细胞资源 TabulaTIME,整合 36 癌种、448 万细胞,统一注释 6 大谱系 56 个亚型,并与空间/队列数据联动;在时空层面识别到定位于肿瘤—正常“前沿带”的 CTHRC1⁺ CAF 与 SLPI⁺ 巨噬的共位“促纤维化生态型”,与免疫浸润受限及不良预后相关,同时提供可复用的 bulk 去卷积与自动注释签名与流程。局限性在于主要依赖公开、平台多样的异质性数据,尽管引入 MetaCell/CCA 等校正,残余批次与采样偏倚仍难完全消除;对上皮/恶性细胞的系统刻画相对不足;空间证据以 ST 与小样本 mIHC 为主,跨治疗状态与多癌种的一致性尚需前瞻性验证。未来应用上,TabulaTIME 可作为通用参考蓝图与训练集用于新队列的快速注释、生态型分解与免疫浸润/生存分层,并为“抗纤维化+免疫治疗”等联合策略提供可操作的细胞—通路靶点与空间定位坐标,推动 NSCLC 等实体瘤的转化研究与精准治疗。