导语

4+单细胞+分型+预后模型+实验验证,小众方向丝毫不卷,换个肿瘤随随便便又是一篇~~
结果:

鉴定 T 细胞标志物基因表达谱
过滤 scRNA-seq 数据集GSE149655 后,从最初的 12,554 个细胞中选择了 9533 个细胞( 图 S1A)。使用 RunPCA 和 RunTSNE 函数进行 PCA 和 t-SNE 降维,选择了 40 个维度( 图 S1B、C)。使用 FindNeighbors 和 FindClusters 函数(分辨率 = 0.1)进行细胞聚类,得到 14 个亚组。亚组注释基于经典的免疫细胞标志物:亚组 2 和 4 是 T 细胞(CD2、CD3D、CD3E、CD3G),亚组 12 是 B 细胞(CD79A、MS4A1),亚组 7 和 11 是肥大细胞(TPSAB1、CPA3)。亚组 0 、 5 、 8 、 9 和 13 是表达 EPCAM 的上皮细胞,1 和 10 是表达 PECAM1 的内皮细胞,亚组 6 是表达 COL1A1 、 COL1A2 和 DCN 的成纤维细胞 ( 图 S1D)。
其中Fig. 1 A 是肿瘤样本和正常样本的 t-SNE 图, Fig. 1 B 是 14 个亚组的 t-SNE 图, Fig. 1 C 是注释亚组的 t-SNE 图。通过 FindAllMarkers 函数筛选 7 个亚组的标记基因,logFC = 0.5 和 Minpct = 0.35。校正 p < 0.05 后,作者只显示每个亚组中前 5 个标记基因的表达 ( Fig. 1 D)。此外,6 个亚组的标记基因用 “clusterProfiler” 包 ( E)注释 KEGG Fig. 1 。
t-SNE 分析和标记基因表达的结果。(A) 肿瘤组织和正常组织分布的 t-SNE 图。(B) 14 个亚群分布的 t-SNE 图。(C) 细胞注释后亚群的 t-SNE 图。(D) 注释亚群的前 5 个标记基因表达的点图。(E) 注释亚群的 KEGG 富集分析的点图。
分子亚型的构建
通过单细胞分析共筛选出 124 个 T 细胞相关标记基因,并根据这些基因的表达进行一致的聚类。根据 CDF,确定最佳 Clusters 数量。通过观察 CDF Delta 面积曲线,可以看出当 cluster 选择 3 时,它有一个相对稳定的聚类结果 (Fig. 2 A, B)。最后,作者选择 k = 3 得到三种分子亚型 ( Fig. 2 C)。通过进一步分析这三种分子亚型的预后特征,可以看出它们之间存在显著的预后差异( Fig. 2 D)。同时,通过对其他数据的验证,发现在数据集中 GSE3120 以相同的方式获得了 3 个亚型,其预后与 TCGA 数据集 ( Fig. 2 E)相似。
在 LUAD 样本中鉴定的预后分子亚型。(A) 来自 TCGA 队列的样本的 CDF 曲线。(B) 来自 TCGA 队列的样本的 CDF Delta 面积曲线。(C) 共识 k = 3 时样本聚类的热图;(D) 显示 TCGA 队列中三种亚型之间预后关系的 Kaplan-Meier 曲线。(E) 描述 GSE31210 队列中三种亚型之间预后关系的 Kaplan-Meier 曲线。
对于 TCGA 数据集,比较了不同临床特征下分子亚型的分布。卡方检验显示,cluster1 和 cluster2 在性别上存在显著差异。然而,在 T 期,cluster1 亚型在 T1 期的样本多于 cluster2 和 cluster3。在患者生存或死亡状态下,cluster1 亚型的患者大多处于生存状态( 图 S2)。
分子亚型中与免疫和炎症相关的功能
首先,通过 ESTIMATE 算法计算患者的免疫评分。通过比较 kruskal.test,发现预后良好的 cluster1 免疫评分较高 (Fig. 3 A)。然后,通过 MCPcounter 包计算 10 种细胞的评分,发现免疫细胞的 cluster1 评分较高 ( Fig. 3 B)。然后通过 CIBERSORT 方法计算 22 个免疫细胞的评分,发现大多数免疫细胞 ( Fig. 3 C)的 3 种亚型之间存在显著差异。最后,在免疫检查点基因方面,通过 kruskal.test 比较发现 cluster1 亚型的免疫检查点基因表达较高 ( Fig. 3 D)。
免疫评分的分子亚型比较。(A) TCGA 数据集中 ESTIMATE 预测的三种亚型免疫评分的比较。(B) TCGA 数据集中通过 MCPcounter 方法预测的 10 个细胞评分的三个亚型之间的比较。(C) TCGA 数据集的 CIBERSORT 算法预测三种亚型之间 22 种免疫细胞评分的比较。(D) TCGA 数据集中三种亚型之间的免疫检查点表达比较。ns 不显著,*p < 0.05,**p < 0.01,***p < 0.001。
此外,本研究还通过 ssGSEA 方法计算了标记基因的相关通路评分。如图所示Fig. 4 ,通过 wilcox 检验,cluster1 亚型的炎症相关通路评分显著高于其他亚型。
三种亚型之间炎症相关途径评分的比较。p < 0.001。
用于构建风险模型的机器学习方法
在 TCGA 的 LUAD 数据集中,不同组间不同基因的比较结果如下:通过肿瘤组和非肿瘤组的比较分析,获得 1731 个与肿瘤发生相关的基因。其中,725 个基因上调,1006 个基因下调。在 cluster1 和非 cluster1 的比较中,有 197 个与 cluster1 相关的基因,195 个基因上调,2 个基因下调。在 cluster2 和非 cluster2 的比较中,有 342 个基因与 cluster2 相关,31 个基因上调,311 个基因下调。在 cluster3 与非 cluster3 的比较中,有 0 个基因与 cluster3 相关。其中, 图 S3 为上述差异分析的火山图。
在对上述各组间差异基因的结果进行交集分析后,本研究发现了 225 个关键基因 ( Fig. 5 A)。通过对 225 个基因的单变量 cox 分析,在 p < 0.01 ( Fig. 5 B)的条件下筛选出 49 个与预后相关的基因。通过这个基于机器学习的集成程序整合了 49 个基因,以开发一致的相关模型方法。在 LUAD 数据集中,通过 LOOCV 框架拟合了 101 个预测模型,并进一步计算每个模型在所有验证数据集上的 C 指数 ( Fig. 5 C)。有趣的是,最优模型是 Lasso 和 plsRcox 的组合,即平均 C 指数高达 0.652。最后筛选出 7 个关键基因 (CPA3、S100P、CD79A、CHRDL1、PGC、SLC34A2、CPS1)。数据风险评分的计算公式为:RiskScore=-0.097*CPA3+0.094*S100P-0.096*CD79A-0.121*CHRDL1-0.09*PGC-0.112*SLC34A2+0.102*CPS1。通过 TCGA 数据集和 3 个数据集验证 7 个基因的表达量,计算风险评分,风险评分为 z 评分,高低风险组除以 0。如 Fig. 5 D 所示,TCGA 建模数据和 3 个验证数据 ( GSE31210 、 GSE50081 和 GSE68465 ) 均为高危预后差异,低危预后良好 (p < 0.05)。
基于机器学习方法构建 LUAD 癌症患者预后风险模型。(A) 关键基因筛查的维恩图。(B) Cox 预后基因。(C) 机器学习筛选和构建风险模型的最佳组合。(D) 训练集和验证集中高低风险组的 Kaplan-Meier 曲线。
不同临床特征的风险评分比较
在分析了患者风险评分与肿瘤临床特征的关系后,可以理解为:在 TCGA 数据集的研究中,发现随着风险评分的增加,临床分级逐渐增加 (Fig. 6 A)。然后, Fig. 6 B 显示比较不同临床分级的风险评分,发现临床分级越高的患者风险评分越高。最后,以 Sankey 图的形式找到临床分级较高的样本,其中更多的样本被分配到高危人群 ( Fig. 6 C)。
不同临床特征的风险评分比较。(A) 在不同临床特征的比较下,风险评分逐渐升高。(B) 不同临床特征的风险评分比较(wilcox 检验)。(C) 高低风险人群不同临床特征的分布。ns 不显著,*p < 0.05,**p < 0.01,***p < 0.001,****p < 0.0001。
结合临床表型特征比较风险模型预测患者预后的优势
本研究综合考虑了从上述结果获得的风险评分和临床特征,依次进行了单因素和多因素的 Cox 回归分析。结果显示,风险评分是最重要的预后因素 (Fig. 7 A, B)。为了量化患者的风险评估和生存概率,本文建立了一个列线图,如 Fig. 7 C 所示,结合了多变量 Cox 结果中的风险评分和其他临床病理特征 (N 分期和 T 分期)。从新构建模型的结果来看,它对生存率预测的影响最大。此外,作者使用校准曲线来评估模型的预测准确性,例如 Fig. 7 D。作者可以观察到 1 、 3 和 5 年三个校准点的预测校准曲线接近标准曲线,这表明列线图具有良好的预测性能。此外,决策曲线用于评估模型的可靠性。可以观察到,风险评分和列线图的益处显著高于极值曲线。与其他临床病理特征相比,列线图和风险评分均表现出最强的生存预测能力,如 Fig. 7 E、F。同时,作者计算了不同表型的 C 指数。通过 Fig. 7 G,作者发现风险评分和列线图的 C 指数优于其他表型。
列线图模型的构建和评价结果。(A) LUAD 患者风险评分和临床特征的单变量 Cox 分析。(B) 风险评分和临床特征的多变量 Cox 分析;(C) 列线图模型。(D) 列线图 1、3 和 5 年的校准曲线。(E) 列线图的决策曲线。(F) 与其他临床病理特征相比,列线图表现出最强大的生存预测能力。(G) 风险评分与临床特征的 C 指数比较。p < 0.001。
高低风险人群的潜在监管途径
在 KEGG 数据库的基因集上,用 “GSVA” 包计算 LUAD 患者的通路评分,用 “Hmisc” 包计算通路评分与风险评分的相关性。最后,在 |cor|>0.4 和p < 0.05 的条件下,筛选出 58 条风险评分显著丰富的通路。从 Fig. 8 A 中可以看出,低风险组的免疫相关通路得分较高,表明低风险组的免疫相关通路被激活。如 B 所示 Fig. 8 ,是 58 条通路的相关性分析热图。
高危组和低危组的潜在调控途径。(A) 高危组和低危组 58 种潜在调控通路评分的结果。(B) 58 种潜在调控通路和风险评分的相关性分析。
高危人群和低危人群的免疫特性
如Fig. 9 A 所示,LUAD 中免疫评分与风险评分的相关性是通过 spearman 统计方法计算的,结果表明风险评分与免疫评分之间存在显著的负相关。然后用相同的方法分析 ssGSEA 计算的风险评分与 28 种免疫细胞之间的相关性,结果还显示大多数免疫细胞与风险评分 ( Fig. 9 B)呈显著负相关。
分析高低风险人群的免疫特性。(A) 风险评分与免疫评分之间的相关性分析。(B) 28 种免疫细胞评分与风险评分之间的相关性分析。(C) 风险评分与 TIDE 评分的比较。(D) 免疫治疗反应组与无反应组的风险评分比较。(E) 免疫治疗反应组与无反应组的 TIDE 评分比较。p < 0.0001。
在 TIDE 预测评分中,评分越高,免疫逃逸的可能性越高,然后患者从免疫治疗中受益的可能性就越小。通过C (spearman 相关系数 R = 0.19,p % 3C 0.001) 的 Fig. 9 证明,发现随着风险评分的增加,TIDE 预测评分也增加。这也从侧面反映了风险评分较高的患者不太可能从免疫治疗中获益。同时,与预测免疫治疗反应的组相比,无反应组的 TIDE 评分和风险评分更高 ( Fig. 9 D, E)。
高、低风险人群的药物敏感性
通过药物反应数据集 CTRP 和 PRISM 为高危人群选择潜在化合物。通过评估高危组和低危组之间的药物反应差异来筛选低 AUC 的化合物。结果,五种 CTRP 衍生物 (GSK461364、KX2-391、莱托霉素 B、紫杉醇和长春新碱; 图 S4A)和 14 种 PRISM 衍生物 (Bi-2536、卡巴他赛、头孢他素、多西他赛和多拉他汀-10 等); 图 S4B)通过风险评分与 AUC 值的 Spearman 相关性分析确定 (P 值 < 0.001 和 Spearman < -0.3 的 R)。
CPA3 在 CD4+ T 细胞亚群中的差异表达及其与活化和分化的相关性
为了研究 CPA3 在 CD4+ T 细胞中的功能,作者首先检测了 CPA3 在健康人和野生型小鼠 CD4+ T 细胞中的表达。作者从健康人的外周血 PBMC 中分离出初始 CD4+ T 细胞,然后用抗 CD3 和抗 CD28 抗体激活 TCR 信号。在激活初始 CD4+ T 细胞指定时间后,作者发现健康人初始 CD4+ T 细胞中 CPA3 的 mRNA 表达水平随着激活时间 ( Fig. 10 A)的增加而显着增加。此外,作者通过流式细胞术从 Foxp3-EGFP 小鼠中分离出分选 Treg 细胞 (CD4+CD25+ GFP+) 和效应 T 细胞 (CD4+GFP-CD44hi Tem)。与未活化的幼稚 CD4+ T 细胞 (CD4+GFP-CD25-CD44low) 相比,Treg 细胞中 CPA3 的表达水平显著低于幼稚 T 细胞,而 CPA3 在有效 T 细胞中的表达水平较高 ( Fig. 10 B)。
分析 CPA3 表达及其在 CD4+T 细胞活化、分化和肿瘤免疫中的作用。(A) 进行 qRT-PCR 检测 CPA3 在 CD4+ T 细胞中表达的内源性表达。(B) 与未刺激的幼稚 CD4+ T 细胞 (CD4+GFP-CD44hi,Tem) 相比,Foxp3-EGFP 小鼠 Treg 细胞 (CD4+CD25+GFP+) 和效应 T 细胞 (CD4+ GFP-CD44hi,Tem) 中的 CPA3 表达水平。(C-D) 幼稚 CD4+ T 细胞从健康人/野生型小鼠分化后的 CPA3 mRNA 表达。ns 不显著,**p < 0.01,***p < 0.001。
此外,作者研究了 CPA3 在不同 Th 细胞亚群中的表达分布,探讨了其与 Th 细胞活化和分化的相关性。作者成功地从健康人和野生型小鼠样本中体外生成了 Th1、Th2、Th17 和 Treg 细胞亚群。结果显示,CPA3 mRNA 表达水平在健康人和小鼠的 Th1 细胞中都相对较高 ( Fig. 10 C、D)。
CPA3 过表达通过细胞因子调节增强 Th1 分化并促进肿瘤细胞凋亡
接下来,作者研究了 CPA3 对 T 细胞分化的影响。幼稚的 T 细胞用 CPA3 过表达。结果显示,与阴性对照组 (Control) 相比,CPA3 过表达显著增加了 CD4+ IFN-γ 和 CD4+ TNF-α 细胞的比例 ( Fig. 11 A, B)。RT-PCR 分析显示,与阴性对照组相比,CPA3 过表达导致 IFN-γ 表达增加,而 IL-4、IL-17 和 IL-10 表达水平降低。这些结果表明 CPA3 过表达促进 Th1 分化 ( Fig. 11 C, D)。ELISA 结果进一步证实 CPA3 过表达增强 Th1 分化,IFN-γ 表达增加,IL-4、IL-17 和 IL-10 表达降低。同样,CD8 + IFN-γ 和 CD8 + TNF-α 细胞的百分比显著增加 ( Fig. 11 E, F)。RT-PCR 和 ELISA 分析显示 IFN-γ 、 TNF-α 和颗粒酶 B 的 mRNA 和蛋白表达分别升高 ( Fig. 11 G、 H)。
CPA3 过表达对 T 细胞分化、细胞因子谱和肿瘤细胞凋亡的影响。(一、二)CPA3 表达对 CD4+ T 细胞分化亚群影响的流式细胞术分析。(三、二)CPA3 表达对 CD4+ T 细胞细胞因子表达影响的 RT-PCR 和 ELISA 分析。(一、二)CPA3 表达对 CD8+ T 细胞分化亚群影响的流式细胞术分析。(克、高)CPA3 表达对 CD8+ T 细胞细胞因子表达影响的 RT-PCR 和 ELISA 分析。(I) 流式细胞术分析,用于评估 CPA3 过表达 T 细胞与肿瘤细胞共培养后的细胞凋亡。(J) 流式细胞术分析过表达 CPA3 T 细胞与肿瘤细胞共培养后 GranzymeB 和 IFN-γ 的水平。*p < 0.05,**p < 0.01,***p < 0.001。
接下来,作者研究了 CPA3 过表达 T 细胞 (CPA3-OE) 对肿瘤细胞凋亡的影响。与肺腺癌细胞 (A549 和 PC9) 分别共培养 24 小时后,作者发现 CPA3 过表达 T 细胞比对照组 ( Fig. 11 I)显着增加肺腺癌细胞凋亡率。同时,颗粒酶 B 和 IFN-γ 表达显示,过表达 CPA3 的 T 细胞与肿瘤细胞共培养显著上调颗粒酶 B 和 IFN-γ 的表达水平 ( Fig. 11 J)。

总结

综上所述,作者通过将 scRNA-seq 数据与大量 RNA-seq 数据整合,开发了一种由 7 个 T 细胞标志基因组成的新的预后特征。此外,风险评分与 TME 、免疫相关途径和药物敏感性显著相关。作者的研究为 T 细胞标志基因在 LUAD 患者预后和精准治疗中的作用提供了新的理论见解。