4+单细胞+预后,绝对的主流套路方案,适合新手模仿以及硕士开题!

导语

结果:
作者分别从 TCGA 和 GEO 数据库中选取了 489 名和 11 名甲状腺癌患者。
研究的工作流程图。
3.1. 通过识别主要簇来表征甲状腺组织中的肿瘤微环境
为了系统性地研究 TME,作者最初的方法是分析 15 个甲状腺组织的 scRNA-seq 数据——包括 7 个原发肿瘤组织、6 个肿瘤周围组织和 2 个皮下转移——这些数据来自 GSE184362 数据集[25],使用 10X Genomics 平台(图 2A)。参考先前研究[10,26],作者将七个原发肿瘤样本和两个皮下转移点归类为“肿瘤组织”。其余六个肿瘤周围组织根据其与肿瘤团块的空间分离及原始数据集中的组织学注释被归类为“正常组织”。随后,作者采用了专门用于单单元注释预测的机器学习算法,进行了严格的质量控制滤波和降维。经过这些初步数据预处理步骤后,作者成功保存了 122,979 条高质量单细胞测量数据,甲状腺组织样本中未观察到显著的批量效应(见图 2A)。利用差异表达分析和已知的标记基因,作者对基于图的簇进行了人工注释(图 2B )。通过已知标记基因如 CD3D、CD3E、CD3G 和 CD247,在 T 细胞中鉴定了细胞类型;B 细胞的 CD79A、CD79B、IGHD 和 IGHM;髓系细胞的 LYZ、S100A8、S100A9 和 CD14;甲状腺细胞的 TG、EPCAM、KRT19 和 KRT18;成纤维细胞的 COL1A1、COL1A2、COL3A1 和 ACTA2;以及内皮细胞的 CDH5、PECAM1、VWF 和 CD34。 该方法使作者识别出六个不同的细胞簇,包括 18,720 个 B 细胞、36,443 个 T 细胞、11,856 个骨髓细胞(单核细胞、巨噬细胞和树突状细胞,不包括颗粒细胞)、48,322 个甲状腺细胞,以及较小的内皮细胞和成纤维细胞(图 2B)。
甲状腺癌免疫环境的转录组分析。(A) UMAP绘制了所有158,557个细胞的SCRNA测序数据,按患者着色。(B)肿瘤组织和正常组织中按细胞类型着色的SCRNA测序数据UMAP图。(C)生成点图以可视化指定单元子集中主要细胞类型标记的表达水平。(D)肿瘤组织和正常组织中主细胞类型的比例(占总细胞的百分比)。
应用平均标记表达,作者进行了基于图的聚类以区分存在的特定细胞类型(图2D)。通过比较肿瘤与正常组织的细胞比例,作者观察到肿瘤样本中T细胞和B细胞相对稀少,而骨髓细胞、甲状腺细胞和成纤维细胞则富集。这一观察可能反映了PTC特有的免疫排除表型或间质屏障,即淋巴细胞对肿瘤巢穴的浸润受限。
3.2. 通过单细胞RNA测序揭示的甲状腺肿瘤微环境中的T细胞异质性及代谢景观
为了加深对T淋巴细胞在正常和肿瘤组织中功能异质性的理解,采用了基于图的聚类方法,将T细胞簇分为四大类:自然杀伤细胞(NK)、CD8+ T细胞、CD4+ T细胞和调控T细胞(Tregs)(图3A).通过统一流形近似与投影(UMAP)特征图(图3B)表示了个别可辨别的T细胞群体和表型状态的标记基因表达。最后,作者仔细分析了正常和肿瘤组织中T细胞类别的比例。肿瘤组织中CD4+细胞比例相对减少,而CD8+细胞、NK细胞和Treg细胞的比例则有不同递增(见图3C)。
甲状腺癌中肿瘤组织与正常组织的T细胞表型景观及相关通路。(A) 36,443个T细胞的scRNA-seq数据UMAP图,按Seurat簇着色,并标注了指定的细胞类型标记。(B)指定细胞子集中T细胞标记的UMAP图。(C)肿瘤组织和正常组织中T细胞类型的比例(百分比)。(D) GSEA分析显示肿瘤组织和正常组织中T细胞相关的信号通路。(E)显示4个T细胞亚簇代谢通路活性差异(按GSVA评分)。(F)箱形图显示了柠檬酸循环(TCA循环)和糖酵解/葡萄糖新生基因的表达水平,以及肿瘤组织和正常组织中T细胞亚簇中五聚磷酸通路的表现水平。每个箱形图代表每个T细胞亚簇的得分。
随后,作者进行了差异分析以确定肿瘤与正常组织间T细胞的DEGs,共选定658个DEG进行随访研究。火山图展示了各队列之间的全球差异表达。总计469个基因在肿瘤组织中的表达水平高于正常组织,包括S100A6和S100A4,肿瘤组织中也观察到某些基因如MT1G和RPL41的上调,这些基因通常与T细胞激活相关。基因集富集分析证实了T细胞激活通路表达升高,因此与差异基因分析结果相符(见图3D)。此外,还进行了肿瘤与正常组织之间NK细胞、CD8+ T细胞、CD4+ T细胞及Treg细胞的DEGs检测。
随后,作者描绘了肿瘤和正常组织的代谢图谱,特别是糖解途径中的表现。作者借助京都基因与基因组百科全书(KEGG)数据库,分析正常和癌变组织中的CD4+、CD8+ T细胞、Treg细胞和NK细胞。作者的研究结果进一步强调,肿瘤组织中的Treg细胞和NK细胞在这些通路中表现出增强的代谢活性(图3E)。
根据上述分析,代谢已被证实会影响TME内免疫细胞的表型和功能,包括T细胞[27]。为了获得对TME中T细胞亚群代谢活动的公正、深入理解,作者进行了Ucell分析,重点关注肿瘤及正常组织中CD4+ T细胞、CD8+ T细胞、Treg细胞和NK细胞的戊糖磷酸盐、糖酵解和氧化磷酸化代谢过程(见图3F)。作者的发现表明肿瘤组织内Treg细胞的糖酵解途径显著富集。
3.3. 甲状腺癌中的比较细胞间通信分析
为了统计评估甲状腺癌中细胞间通信模式的差异,作者基于合并的单细胞数据集,使用CellChat框架进行了综合比较分析。这种方法使作者能够同时模拟两种组织类型的全球通信网络,并定量比较两类组织之间的相互作用数量、强度和信号通路活动。显著配体-受体相互作用的数量变化显著(图4A)。研究显示出细胞间相互作用的整体增加,尤其是在免疫抑制群体如CD4+ T细胞、CD8+ T细胞、NK细胞和Treg细胞之间,反映了更复杂且具有免疫规避性传播的通信网络。它还显示肿瘤组织中NK细胞与其他T细胞之间特定细胞亚群间的总相互作用强度增加,表明肿瘤微环境中细胞交流的数量和强度均发生变化(见图4B)。
配体-受体分析预测甲状腺癌中不同T细胞亚簇的交叉信号。(A)甲状腺癌中细胞亚型间相互作用数量的差异。(B)甲状腺癌中免疫细胞类型间的相互作用强度差异。(C)甲状腺癌信号通路的相对信息流。(D)部分信号通路在相对通信概率上表现出显著差异。本比较分析通过CellChat在合并数据集上完成。
还评估了规范信号通路的相对信息流(图4C)。研究还发现NK细胞与其他T细胞的相互作用次数最多,这意味着NK细胞可能在甲状腺癌中发挥重要作用。对某些信号通路的交流概率差异最大进行了可视化(图4D),更清晰地理解了肿瘤与正常组织环境中特定信号程序的重编程方式。
综合来看,基于合并数据的比较分析为理解甲状腺癌中情境特异性细胞间通信提供了更稳健且生物学上可解释的框架。
3.4. Treg细胞介导的免疫通讯揭示了肿瘤微环境:细胞相互作用的洞见
作者通过比较肿瘤与健康组织在免疫微环境中的猜测相互作用开始了分析。作者采用了SingleCellSignalR算法,该算法擅长从单个细胞转录组数据中推断细胞间网络,运行在手动整理的配体-受体(LR)数据库中[28]。
SingleCellSignalR对每位患者的数据独立应用,强调CD8+ T细胞、Treg细胞、CD4+ T细胞和NK细胞之间的相互作用。作者的结果显示,肿瘤和正常组织中大量存在大量预测的配体-受体相互作用(见图5A,B)。此外,抗原呈递分子和免疫分子相互作用,如HLA-A、HLA-B、HLA-C、HLA-E和HLA-F与CD8A和CD8B之间的相互作用,在肿瘤组织中显著上调,而正常组织中的存在则相对减弱。此外,观察显示抗原呈递和免疫分子相互作用主要由Treg细胞、NK细胞和CD4+ T细胞作用,这些细胞对CD8+ T细胞施加影响,其他细胞类型中LR机制的强度变化可忽略不计。免疫调节相互作用评分显示肿瘤组织呈下降趋势,主要受CLEC2D、CLEC2C、CLEC2B和KLRB1影响。这表明免疫环境刺激较弱,导致外周免疫细胞难以吸引肿瘤。
配体-受体分析预测肿瘤与正常组织之间不同T细胞亚簇的交叉。(A,B)在肿瘤组织或正常组织中,针对特定细胞类型对的配体-受体相互作用进行富集。选拔通过考虑现有文献证据并确保生物学解释性。白色方块表示富集p值为0.05>相互作用。统计分析采用了双侧Wilcoxon秩和检验。(C,D)社会图展示了肿瘤组织与正常组织中4种T细胞类型之间的相互作用权重/强度及相互作用次数。(E,F)热图显示了肿瘤组织和正常组织中4种T细胞类型配体-受体相互作用在出信号图和输入信号图中的表达。
随后,作者构思了一项广泛研究,利用单细胞信号R区分肿瘤免疫环境与正常组织之间的细胞相互作用。最初,作者列举了所有样本对中每个T细胞类别的推测配体-受体(LR)相互作用总数(见图5C,D),揭示了肿瘤组织中CD8+ T细胞、Treg细胞、NK细胞和CD4+ T细胞的多种预测相互作用模式。有趣的是,CD8+ T细胞内部的相互作用也被观察到。传统上,Treg细胞、NK细胞和CD4+ T细胞的相互作用较少,这很可能是因为它们整体基因表达谱较低(见图5C)。与肿瘤组织相比,正常组织中的CD8+ T细胞与Treg细胞的相互作用较少,而Treg细胞和CD4+ T细胞几乎没有相互作用,尽管对NK细胞的效应显著增强(见图5D)。
为提升生物学解释性,作者对肿瘤和正常组织中的传出和传入信号模式进行了分析。随后发现,CD8+ T细胞、Treg细胞、NK细胞和CD4+ T细胞在两种组织类型中都建立了多种传出(配体表达细胞)和传入(表达受体细胞)相互作用(图5E、F)。令人印象深刻的是,CD4+ T细胞表现出传出相互作用的表达升高;相反,它们的传入相互作用表达几乎为零。在比较肿瘤与正常组织时,观察到Treg细胞中的MHC-2和CD8+ T细胞中的CD99信号强度在肿瘤组织中均有所增强。此外,LCK在肿瘤组织中的信号强度更高,而CLEC的信号强度在正常组织中更为强化。这些数据进一步支持甲状腺癌患者存在免疫功能低下的假说。
3.5. 基于T细胞差异基因的GNN模型开发,用于风险分层和预后预测
为了识别在整个T细胞群体中表达有显著差异的基因,作者使用肿瘤组织和正常组织中T细胞表达差异基因作为后续建模的特征。模型即提出的MLA-GNN,模型结构见图6A。此外,对THCA数据进行了差异基因分析。此外,WGCNA被用于识别T细胞相关基因组。最后,使用GNN模型进行建模。
TCGA队列中多层注意力图神经网络(MLA-GNN)的构建。(A)拟议多层注意力图神经网络(MLA-GNN)概述。(B)验证组的KM曲线。(C)验证组的ROC曲线。(D)训练组的KM曲线。(E)训练组的ROC曲线。
为了验证诊断模型基因是否反映特定T细胞亚群中观察到的功能变化,作者观察了其在肿瘤浸润免疫细胞中的表达。模型中使用的若干标记基因——包括PDCD1、TIGIT、LAG3和IL2RB——在CD8+ T细胞和Treg细胞中优先富集。这些基因是免疫抑制和T细胞功能障碍的公认标志物,与作者早期发现肿瘤组织表现出抑制性通路表达增强和细胞间通讯改变的发现相符。
随后,TCGA数据被按8:2比例划分为训练集和验证集。根据中间最优的阈值,患者被分为高风险组和低风险组。对训练和验证数据集的生存分析显示,TCGA数据集中THCA患者的生存率存在显著差异。Kaplan–Meier曲线对高风险组患者预后不利(p < 0.001),验证了该模型在TCGA队列中对风险亚型进行分层的能力(见图6B)。基于1年、3年和5年生存率的ROC曲线AUC用于预测患者预后,训练组中维持在约0.95(见图6C)。此外,风险评分有助于优化验证组的预后分层,高风险患者的无病生存率显著低于低风险患者(p = 0.0029)(见图6D)。ROC曲线展示了其表现良好,12个月AUC为0.8(见图6E)。
3.6. 高风险与低风险患者组T细胞浸润的差异分析
为了明确高风险组和低风险患者组免疫微环境的差异,作者使用CIBERSORT标注了CD8+T细胞、Treg细胞、CD4+ T细胞和NKT细胞的水平,同时对基因表达基质进行批量校正以降低技术变异性。结果显示,高风险组Treg细胞浸润水平显著增加(p < 0.001)(图7A),高风险组的CD4+ T细胞浸润水平也显著增加(p < 0.001)(图7B)。相反,低风险组CD8+ T细胞的浸润水平显著上升(p = 0.035)(见图7C),而NKT细胞在低风险组的浸润水平也显著增加(p = 0.001)(见图7D)。这些结果强调了高风险患者群体与免疫抑制微环境相关。这些发现表明免疫微环境与患者风险之间存在相关性。高风险患者可能存在增多的Treg和CD4+ T细胞,这些细胞以免疫抑制作用著称。低风险患者可能表现出CD8+ T细胞和NKT细胞的增加,表明具有有效的抗肿瘤反应。这需要更多研究,开发个性化免疫疗法和潜在的生物标志物,用于患者风险分层。
箱形图显示高风险组和低风险组T细胞免疫浸润的差异。(A)Treg细胞。(B)CD4+ T细胞。(C) CD8+ T细胞。(D) NKT细胞。3.7. 低风险组与高风险组的基因表达与途径分析:一项涉及基因本体论与KEGG分析的比较研究
与高风险组患者相比,低风险组有166个基因上调;与低风险组相比,高风险组有17个基因上调。这些结果通过热力图表示方式得到展示。
随后进行了基因本体(GO)分析。该分析发现,在细胞组分(CC)分类中,低风险组在“通过MHC I类抗原处理和外源性肽抗原呈现”以及“通过MHC II类抗原处理和肽抗原呈现”途径中表现出最大表达。在生物过程(BPs)下,表达最高的途径是“含胶原细胞外基质”和“质膜外侧”。此外,分子功能(MF)在“MHC II类受体活性”和“肝素结合”通路表达最高(p < 0.05)。
相比之下,CC类高风险组的“顶端质膜”和“囊泡腔”通路表达最大。BP类别未发现明显富集通路。MF中,“整合素结合”和“胞外基质结构成分”通路表达最高(p < 0.05)。
后续KEGG分析发现,低风险组中MAPK信号通路和甲状腺激素合成表达较高(p < 0.05)。然而,在高风险组中,“糖鞘脂生物合成 − 乳酸和新乳酸系列”通路表达较高(p > 0.05)。
3.8. 高风险组和低风险组的差异性突变特征与肿瘤突变负重:BRAF突变
与低风险组相比,高风险组的突变率更高,分别占78.95%和68.39%。BRAF被确定为最常见的突变基因,与细胞增殖密切相关。高风险组中,68%的患者观察到BRAF突变。相比之下,低风险组约51%的患者表现出BRAF突变(见图8A)。图8。
高风险组和低风险组的突变状况。(A)在不同风险亚组中,突变频率最高的10个基因的突变状况。(B)描述BRAF的统计测量突变细节,BRAF是最常见的突变类型。(C)不同风险组间肿瘤突变负担(TMB)的比较。
此外,作者计算了高风险组与低风险组间BRAF突变与非BRAF突变的差异(见图8B)。结果显示,高风险组的BRAF突变比例高于低风险组(p = 0.002)。
此外,作者分析了高风险组和低风险组的肿瘤突变负荷(TMB)表达情况。结果显示高风险组的TMB表达显著高于低风险组(p < 0.001)。这表明高风险患者肿瘤细胞中的突变事件数量增加,可能导致肿瘤不稳定和进展(见图8C)。
总之,高风险组和低风险组在突变谱上存在显著差异。高风险组表现出更高的突变率,其中BRAF是主要的突变基因。这表明BRAF突变可能导致甲状腺癌患者的预后不佳。此外,高风险组TMB水平升高,可能与肿瘤的生物学特征及患者预后有关。3.9. 亚组分析显示低风险组无病生存率提升:年龄、性别及患者分期特异性影响
在高风险组和低风险组基于年龄和性别进行亚组分析后,作者观察到这些亚组间DFS的显著差异。具体来说,在55岁以上和55岁以下的患者中,低风险组的DFS明显长于高风险组(p < 0.0001)。此外,男女患者中,低风险组的DFS显著改善于高风险组(p < 0.0001),所有ROC曲线得分均超过0.95。
此外,作者在高风险组和低风险组中进行了分期特异性分析。结果显示,在第1、2、3和4期患者中,低风险组的DFS显著长于高风险组(P < 0.0001),ROC曲线得分超过0.95。
此外,作者基于T阶段和N阶段对高风险组和低风险组进行了亚组分析。无论T1、T2、T3、T4分期,还是N1、N2、N3、N4分期,低风险组患者的DFS显著长于高风险组(P < 0.0001),ROC曲线评分也超过0.95。
总结来说,作者的发现表明,在年龄和性别亚组以及分期亚组中,低风险组的患者DFS显著改善,优于高风险组。这些结果表明,这些亚组可能作为预测患者无病生存率的重要预后指标。

总结

总之,本研究综合整合了体质RNA测序和单细胞RNA-seq数据,利用多层注意力图神经网络(MLA-GNN)构建了甲状腺癌的T细胞相关预后模型。该模型展示了跨亚组无病生存(DFS)的稳健稳定预测能力,并强调T细胞亚群——尤其是调控和耗尽的CD8+ T细胞——在塑造免疫抑制性肿瘤微环境中的关键作用。重要的是,所识别的风险相关基因不仅具有统计学意义,且具有生物学相关性,反映了关键T细胞区室的功能失调。这些发现加深了作者对甲状腺癌中免疫介导机制的理解,并表明基于T细胞的分子特征可能成为预后评估和免疫治疗反应预测的有前景的生物标志物。通过将免疫分析纳入预后建模,这项工作为更精确的患者分层奠定了基础,并为制定个性化治疗策略打开了新途径 。