导语

结果:
IBD 和 CCA 中 DEG 的识别
合并数据集中的批处理效应,即 CCA_merge_data(集成GSE107943 和 TCGA)和 IBD_merge_data(集成 GSE16879、GSE112366 和 GSE75215),通过“sva”包被去除。归一化通过“limma”包( 图 1A–H)进行。

CCA 和 IBD 的数据预处理。(A–D)PCA 图显示 CCA 数据集中 GSE107943 和 TCGA 中(A–C)和(B–D)批次效应校正前后的表达模式。(E–H)PCA 绘制了 IBD 数据集中 GSE16879、GSE112366 和 GSE75215 的表达模式,涵盖批次效应校正前后(E–G)和之后(F–H)。
IBD 数据集共获得 209 个 DEGs,包括 162 个上调基因和 47 个下调基因(见图 2A)。还生成了该数据集中前 20 个显著上调和下调基因的热图(见图 2B)。与此同时,CCA 数据集共收集了 10,968 个 DEGs,其中包括 6,077 个上调基因和 4,891 个下调基因(见图 2C)。还生成了该数据集中前 20 个显著上调和下调基因的热图(见图 2D)。此外,IBD 和 CCA 数据集中识别了 50 个交集的 DEGs,涵盖 34 个上调基因和 16 个下调基因(见图 2E 和 F)。

火山图、热力图和共表达的 DEGs。(A)IBD 数据集中 DEGs 的火山图。(B)IBD 数据集中 DEGs 的热力图。(C)CCA 数据集中 DEGs 的火山图。(D)CCA 数据集中 DEGs 的热力图。(E)IBD 和 CCA 数据集共享的共上调 DEG 的维恩图。(F)IBD 和 CCA 数据集共享的共下调 DEG 的维恩图。红色表示上调基因,蓝色表示下调基因,灰色表示非 DEG 基因。WGCNA 在 IBD 和 CCA 中的表现
WGCNA 在 IBD 和 CCA 数据集上同时进行,以考察临床性状与基因表达之间的关系。在这两个数据集中均未发现显著异常样本。根据 WGCNA 算法,IBD 数据集的最佳软阈值功率为 21,CCA 数据集为 7(见图 3A 和 B)。基于模块相似性,IBD 数据集中识别出四个模块,CCA 数据集中识别出 5 个模块(图 3C 和 D)。随后进行了模块-性状相关分析。在 IBD 数据集中,灰色模块与 IBD 呈正相关性最高(r = 0.11, p < 0.05),而 CCA 数据集中,蓝色模块与 CCA 呈最高正相关性(r = 0.89, p < 0.05)(见图 3E 和 F)。最终,通过与关键 WGCNA 模块的 DEG 交叉,获得了 13 个交集基因。这些基因可能参与 IBD 和 CCA 的发病机制(见图 3G)。

WGCNA 识别了 IBD 和 CCA 的关键基因模块,以及 DEGs 与这些关键模块在两种疾病中的交集。(A–B)在 IBD (A)和 CCA (B)数据集中选择最优软阈值能力。(C–D)IBD (C)和 CCA (D)数据集中的基因簇树及模块特征基因的相关分析。(E–F)热图展示了模块特征基因与 IBD 及 CCA 临床性状之间的相关性。红色表示正相关,蓝色表示负相关。(G)来自 IBD 数据集中的 DEG 与蓝色模块,以及 CCA 数据集中 DEG 与灰色模块之间交集基因的维恩图。通过机器学习识别和验证共享枢纽基因
基于机器学习算法进行特征选择,以进一步发现最具诊断意义的基因。在 13 个候选基因中,LASSO 回归选出 8 个基因(见图 4A 和 B),SVM-RFE 识别出 10 个基因(见图 4C 和 D),LR 选出 p3C 为 0.05 的基因(见图 4E)。RF 按重要性评分对前 30 个基因进行了排名(见图 4F 和 G)。最终,识别出八种常见的诊断生物标志物:CCL11、CCL20、DUOX2、DUOXA2、LCN2、NOS2、PDZK1IP1 和 TRIM40(见图 4H)。

识别 IBD 和 CCA 中常见的枢纽基因。(A–B)LASSO 回归分析结果。(C–D)SVM-RFE 结果。(E)逻辑推理分析结果。(F–G)射频分析结果。(H)维恩图,展示了由四种机器学习算法识别的交集基因。
此外,利用 ROC 曲线( 图 5)评估不同数据集中枢基因的诊断价值( 图 5A 和图 B)。在 IBD 数据集中,曲线下的区域(AUC)如下:CCL11(0.68)、CCL20(0.61)、DUOX2(0.74)、DUOXA2(0.75)、LCN2(0.71)、NOS2(0.72)、PDZK1IP1(0.64)和 TRIM40(0.66)( 见图 5A)。在 CCA 数据集中,对应的 AUC 为:CCL11(0.70)、CCL20(0.85)、DUOX2(0.78)、DUOXA2(0.74)、LCN2(0.79)、NOS2(0.64)、PDZK1IP1(0.93)和 TRIM40(0.74)( 见图 5B)。其中,LCN2、DUOX2 和 DUOXA2 的 AUCs 均大于 0.7。箱形图显示,这三种诊断生物标志物在 IBD 和 CCA 训练队列中的疾病组中显著上调( 见图 5C–D),表明它们作为 IBD 和 CCA 的生物标志物具有强有力的诊断潜力。

训练数据集中八种常见诊断生物标志物的 ROC 曲线和表达。(A)IBD GSE193677 队列中八种常见诊断生物标志物的 ROC 曲线。(B)CCA_merge_data 队列中八种常见诊断生物标志物的 ROC 曲线。(C)IBD GSE193677 队列中八个常见诊断生物标志物的表达。(D)CCA_merge_data 队列中八种常见诊断生物标志物的表达。
注:*p < 0.05;**p < 0.01;p < 0.0001。
在 IBD 验证数据集中,识别出DUOX2(AUC = 0.88)、DUOXA2(AUC = 0.87)和 LCN2(AUC = 0.90)( 见图 6A)。在 CCA 验证队列(GSE32879)中,对应的 AUC 为 DUOX2 0.88,DUOXA2 0.63,LCN2 0.88( 见图 6B)。 其中,DUOX2 和 LCN2 的 AUC 大于 0.8,而 DUOXA2 的 AUC 低于 0.7( 见图 6B)。箱型图显示 ,DUOXA2 和 LCN2 在疾病组中的表达模式与训练组观察到的一致。然而,DUOXA2 在 CCA 验证队列中并未显示显著差异( 见图 6C 和 D)。

4+共病+机器学习+WGCNA,这个共病分析套路值得一学,想冲高分的话可以加些热点!
验证数据集中八种常见诊断生物标志物的 ROC 曲线及表达。(A) IBD_merge_data 队列中八个常见诊断生物标志物的 ROC 曲线。(B)CCA-GSE32879 队列中八个常见诊断生物标志物的 ROC 曲线。(C)IBD_merge_data 队列中八个常见诊断生物标志物的表达。(D)CCA-GSE32879 队列中八个常见诊断生物标志物的表达。
注:**p < 0.01;p < 0.0001。单基因 GSEA
在确定DUOX2 和 LCN2 作为潜在诊断生物标志物后,作者进行了单基因基因富集分析(GSEA),以探索它们的潜在生物学功能。如图 7 所示,富集通路根据与每个目标基因的相关性按递减顺序排序。基因本体论(GO)分析显示,DUOX2 在免疫效应过程、适应性免疫反应以及 B 细胞/淋巴细胞介导免疫方面显著富集。京都基因与基因组百科全书(KEGG)通路分析显示,DUOX2 主要富集于 TNF 信号通路、IL-17 信号通路以及细胞因子-细胞因子受体相互作用通路等(见图 7A–D)。

对炎症性肠病(IBD)和 CCA 中共同驱动基因DUOX2 的功能及途径富集分析。(A) DUOX2 的 Go 分析。(C) DUOX2 的 KEGG 分析。(B–D)DUOX2 的 GSEA。
去细胞移植分析显示,LCN2 在适应性免疫反应中显著富集,尤其是与 B 细胞和免疫球蛋白相关的反应。这些包括免疫效应过程、适应性免疫以及 B 细胞/淋巴细胞介导的免疫。KEGG 通路分析发现了 LCN2 在 TNF 和 IL-17 信号通路中的富集、细胞因子-细胞因子受体相互作用、自身免疫和代谢疾病,以及感染和宿主防御通路( 见图 8A–D)。

LCN2 的功能及途径富集分析,LCN2 是 IBD 和 CCA 中共享的驱动基因。(A) LCN2 的 Go 分析。(C) 对 LCN2 的 KEGG 分析。(B–D)LCN2 的 GSEA。CCA 患者中枢基因的预后价值
通过 K-M 生存分析评估了CCA 患者 DUOX2 与 LCN2 表达及总体生存期(OS)之间的关系。基于枢纽基因的最佳截断值,CCA 队列个体被分层为高表达组和低表达组。结果显示,DUOX2 和 LCN2 表达水平低的个体,其 OS 表现显著优于高表达水平者(p < 0.05,图 9A 和 B)。

基于DUOX2 和 LCN2 mRNA 高低表达水平,对 CCA_merge_data 队列 CCA 患者的生存分析。(A)74 名 CCA 患者的 OSK-M 曲线,按 DUOX2 表达的最佳截止风险评分分层。(B)74 名 CCA 患者的 OSK-M 曲线,按 LCN2 表达的最佳截止风险评分分层。基于枢纽基因的候选药物鉴定
候选药物通过药物特征数据库29 和“pRRophetic”R 软件包进行筛选。绝对相关系数大于 0.4 且 p 值小于 0.05 的药物被选为 IBD 与 CCA 联合治疗的潜在治疗方法。LCN2 可能参与多种化疗药物的耐药机制,其抑制作用可能增强药物敏感性。DUOX2 可能与氧化应激通路相关,高表达患者可能对 PF-4708671 等药物敏感性增加(见图 10A–J)。

DUOX2 和 LCN2 的药物敏感性分析(见图 10A–J)。免疫细胞浸润及其与共享枢纽基因的关系
使用 CIBERSORT 系统分析每个样本中的免疫细胞丰度,以考察免疫细胞在 IBD 和 CCA 复杂发病机制中的分布特征及潜在作用。图 11A 和图 B 清晰显示了 IBD 和 CCA 患者样本中 22 种免疫细胞类型的相对丰度。详细的比较分析表明,M2 巨噬细胞和静息记忆 CD4⁺ T 细胞在 IBD 和 CCA 患者中占据了相当大比例的免疫细胞。这些发现表明两种疾病中免疫细胞浸润存在潜在的共同机制。

炎症性肠病和 CCA 中的免疫浸润分析。(A)每个 IBD 样本中 22 种免疫细胞类型的相对丰度。(B)每个 CCA 样本中 22 种免疫细胞类型的相对丰度。(C)显示 IBD 样本中枢基因与免疫细胞相关性的热图。红色表示正相关,绿色表示负相关。(D)热图,展示了 CCA 样本中枢纽基因与免疫细胞之间的相关性。红色表示正相关,绿色表示负相关。*p < 0.05;**p < 0.01;p < 0.001。
基于此,进行了进一步的相关分析。结果表明,在两种疾病数据集中,LCN2 均与调控 T 细胞、M0 巨噬细胞和滤泡辅助 T 细胞呈正相关。同样,DUOX2 在两个数据集中与 M0 巨噬细胞呈正相关(见图 11C 和图 D)。临床样本中枢纽基因的验证
提取了 IBD 患者及正常对照组的肠道黏膜组织,以及 CCA 组织和邻近非肿瘤组织,以验证临床样本中枢基因的表达。进行了 qRT-PCR 检测这些样本中DUOX2 和 LCN2 的表达。结果与之前的数据分析结果一致。与对照组相比,DUOX2 表达明显上调。IBD 患者的 LCN2 表达显著增加,CCA 患者表现出明显的上升趋势(见图 12A–D)。

枢纽基因的 qRT-PCR 验证。(A)验证 IBD 中 DUOX2 表达与对照组的差异。(B)验证 DUOX2 在 CCA 组与对照组的表达。(C)IBD 组与对照组 LCN2 表达的验证。(D)CCA 组与对照组 LCN2 表达的验证。ns,无显著性(P ≥ 0.05);*P < 0.05;**P < 0.01。

总结

本研究首次通过转录组分析揭示了 IBD 和 CCA 之间基因-基因相互作用及潜在分子机制。通过基于机器学习的分析,LCN2 和 DUOX2 被鉴定为 IBD 和 CCA 中的共同特征基因,凸显了它们作为两种疾病的治疗靶点的潜力。研究结果表明,免疫失调、炎症反应和感染相关通路可能构成两种疾病的共同病理机制。