|
导语
识别 MDD 病例与对照组之间的差异表达基因(DEGs)
GEO 数据集GSE32280 、 GSE39653 和 GSE98793 使用 R 语言的“cbind()”函数进行合并,并使用 R 语言的“sva”包进行批次效应校正(见图 2 )。通过 Limma 分析,在重度抑郁症(MDD)患者和健康对照(HCs)之间共鉴定出 596 个差异表达基因(DEGs),其中 MDD 组中上调基因 294 个,下调基因 302 个。显著 DEGs(P 值<0.05)的表达差异幅度以火山图形式展示在图 3A 中,以热图形式展示在图 3B 中 。这些 DEGs 富集在 GO CC 术语“特异性颗粒”、“特异性颗粒膜”、“分泌颗粒膜”、“特异性颗粒腔”和“三级颗粒”,BP 术语“通过 JAK-STAT 和 STAT 的受体信号通路”、“胎盘发育”和“碳水化合物分解过程”,以及 MF 术语“相同蛋白结合”、“免疫受体活性”、“细胞因子受体活性”、“磷脂酶活性”和“1-磷酰肌醇-3-激酶调节活性”。
所有重度抑郁症(MDD)样本与健康对照组的基因表达分布对比。同时展示了批次效应校正步骤。A 所有样本的基因表达分布。B 批次校正数据展示。
图 3. MDD 相关差异表达基因(DEGs)的基因本体富集分析。
分析重度抑郁症患者与健康对照组之间的差异表达基因(DEGs),突出显示富集的生物学过程。A 重度抑郁症患者中 DEGs 的火山图。B 重度抑郁症患者与健康对照组的基因表达热图。C 重度抑郁症中 DEGs 的 GO 富集分析。D 重度抑郁症相关 DEGs 中富集 GO 术语的圆形可视化。
为识别与重度抑郁症(MDD)相关且与氧化应激(OS)相关的基因,将这些差异表达基因(DEGs)在 GeneCards 数据库中与 817 个与 OS 相关的基因进行检索,相关性评分≥7,得到 38 个潜在的 MDD-OS 相互作用或互作基因。这些交集 DEGs 的维恩图显示在图 4A ,其染色体位置显示在图 4B 。在这 38 个 DEGs 中,AMD、ALPP、CAMK2G、DDAH1、KCNE1、LEP、MAPK3、IL10、PINK1 和 SLC2A1 在 MDD-OS 样本中显著上调(图 4C )。
图. 4. MDD 相关和氧化应激(OS)相关 DEGs 的鉴定
一个显示 MDD 相关 DEGs 和 OS 相关 DEGs 之间交集的维恩图。B OS 基因和 MDD 样本之间 38 个交集 DEGs 的染色体定位。C 对照组与 MDD-OS 样本中 38 个交集 DEGs 的基因表达。
机器学习算法被训练用于通过GSE39653 数据集推断 38 个 MDD-OS 差异表达基因与 MDD 发病机制之间的关联,并使用 GSE98793 数据集验证模型性能。通过 Bagged Trees 算法(图 5A )、贝叶斯算法(图 5B )、随机森林算法(图 5C )、Wrapper 算法(图 5D )、LQV(图 5E )以及 1000 次 10 折交叉验证的 LASSO Logistic 模型(图 5F )的结果交集,识别出其中 32 个基因与 MDD 和 OS 的发病机制密切相关(图 5G ):ADM、AKR1C3、ALPP、CAMK2G、CREBBP、DDAH1、DNM1L、F5、FKBP5、GADD45A、GATB、GDF15、HSP90AA1、HSP90AB1、HSP90B1、IL10、INSR、KCNE1(编码钾电压门控通道亚家族 E 调节亚基 1)、KLF2、LEP、MAP2K1、MAPK3(编码丝裂原活化蛋白激酶 3)、MGST1、PLA2G7、PLAU、PTK2B、RETN、SLC2A1、STIP1(编码应激诱导磷酸蛋白 1)、TNF、UGT1A1 和 VDR。随后,作者使用 STRING 数据库构建了以这 32 个基因为中心的蛋白质相互作用网络。 根据标准 |Logfc | < 0.05 和 P 值 < 0.05,该包含 32 个节点的 PPI 网络有 341 条边,表明氧化应激与重度抑郁症发病机制之间存在复杂的多层次相互作用。
图 5. 与氧化应激相关的重度抑郁症相关差异基因的机器学习分析。
不同机器学习算法应用于GSE39653 数据集的结果:Bagged Trees (A), Bayesian 算法 (B), Random Forest (C), Wrapper 算法 (D), LQV 算法 (E), 以及 Lasso-Logistic 回归(1000 次迭代)(F)。G 所有六种机器学习算法识别出的与 MDD-OS 相互作用相关的基因总结。
基于GSE39653 数据集构建了一个诊断模型(图 6A ),并在训练集 GSE39653 和验证集 GSE98793 上验证了其区分能力。训练集的召回曲线和 Hosmer-Lemeshow 拟合优度检验结果均为 1( GSE39653 ),表明 I 类错误的概率较低,预测结果接近真实数据,模型的校准度高(图 6B )。训练集的诊断模型的 AUC 为 1.00(图 6C )。诊断模型的 C 指数在训练集为 0.99( GSE39653 ),在验证集为 1( GSE98793 )(图 6D ),召回曲线和 Hosmer-Lemeshow 检验结果的 P 值均为 1.00(图 6E )。最后,验证集的诊断模型 AUC 为 0.876(图 6F )。
图 6. 基于氧化应激相关基因预测重度抑郁症的列线图模型
使用来自GSE39653 训练数据集和 GSE98793 验证数据集的 MDD 和 OS 相关基因数据创建的列线图。基于基因特征的 MDD 风险预测列线图。B GSE39653 数据集中诊断模型的校准曲线。C GSE39653 数据集中诊断模型的 ROC 曲线及 AUC。D GSE39653 和 GSE98793 数据集中的预测准确性 C 指数。E GSE98793 验证数据集中诊断模型的校准曲线。F GSE98793 验证数据集中诊断模型的 ROC 曲线及 AUC。
重度抑郁症患者的躯体、行为和认知症状存在显著差异,因此作者通过使用 ConsensusClusterPlus 进行聚类分析,考察了这 32 个关键基因在不同重度抑郁症表型中的潜在功能。该分析在 GSE39653 数据集中产生了两个患者簇,即簇 A 和簇 B,基于差异表达基因谱(图 8A )。不同分类的一致性指数斜率(图 7B )进一步证实,该队列的最佳簇数为两个,而图 8C 中的碎石图揭示了最佳分类的拐点。作者进一步通过 PCoA(图 7D )验证了 GSE39653 中该重度抑郁症患者亚型分类的稳定性。
图 8. 使用 CIBERSORT 进行的免疫细胞浸润分析
使用 CIBERSORT 算法对GSE39653 数据集进行的免疫细胞浸润分析。A 对不同免疫细胞亚群的 CIBERSORT 分析。B 不同簇中各种免疫细胞类型的特征得分分布。C 免疫细胞类型特征和聚类分析的热图。
图 7. 数据集 GSE39653 中重度抑郁症患者的不受监督聚类分析揭示两种不同的分子表型。
A k=2 为最优聚类数量的共识聚类矩阵。B 累积分布函数。C 聚类分析的碎石图。D PCoA 聚类验证分析。E MDD-OS 亚型的差异基因表达分析。F ClusterA 中高表达基因的 GO 富集分析。
为探索两种亚型的发病机制差异,首先鉴定了 Cluster A 和 Cluster B 的总差异基因(DEGs)。总共发现 3560 个 DEGs,其中 1367 个在 Cluster A 中表达水平更高,1223 个在 Cluster B 中表达水平更高(图7E )。随后进行 GO 富集分析,以揭示生物学功能的差异富集情况。Cluster A 中富集的 BP 术语包括“白细胞脱粒”、“需氧电子传递链”和“ATP 合成偶联电子传递”,富集的 CC 术语包括“呼吸链复合物”和“富含 ficolin-1 的颗粒腔”,富集的 MF 术语包括“抗氧化活性”和“氧化还原驱动的主动跨膜转运活性”(图 7F )。
免疫细胞浸润是脑部氧化应激(OS)的主要驱动因素,表明其对氧化应激相关抑郁症(MDD)发病机制有重要贡献。作者采用 Cibersort 分析计算了 GSE39653 数据集中 22 种免疫细胞的浸润状态,并通过 Wilcoxon 符号秩检验比较了每种免疫细胞类型的相对丰度(图 8A )。CIBERSORT 算法也被用于比较 A 组和 B 组之间的免疫细胞浸润谱。结果表明 B 组中树突状细胞和活化肥大细胞含量高(图 8B ),且大多数免疫细胞亚群的相对丰度在组间存在差异(图 8C )。此外,ssGSEA 算法显示 A 组 MDD 样本中活化 CD8+ T 细胞、效应记忆 CD8+ T 细胞、调节性 T 细胞、1 型 T 辅助细胞、嗜酸性粒细胞、巨噬细胞和单核细胞的浸润程度更高(图 9A )(P 值<0.05)。此外,这些细胞的丰度与 32 个最重要的差异表达基因(DEG)的表达水平相关(所有 P 值<0.05)(图 9B )。
图 9. 使用 ssGSEA 进行的免疫细胞浸润分析。
使用 ssGSEA 算法对GSE39653 数据集进行的免疫细胞浸润分析。A 每个样本的免疫细胞评分的条形图。B 32 个最重要的差异表达基因与 MDD 样本中免疫细胞浸润的相关性。
作者还进行了 SMR 分析,以评估这 32 个关键基因与重度抑郁症(MDD)的关联强度(以 P 值<0.05 作为统计学显著性阈值)。结果表明,KCNE1 表达升高与 MDD 风险增加相关(OR=1.057,95% CI=1.013–1.102,P 值=0.010)(图 10A, B, G )。类似地,MAPK3 表达升高与 MDD 风险增加相关(OR=1.023,95% CI=1.004–1.043,P 值=0.020)(图 10C, D, G ),而 STIP1 的上调与 MDD 风险降低相关(OR=0.792,95% CI=0.641–0.979,P 值=0.031)(图 10E, F, G )。展示了基因 MAPK3、KCNE1、STIP1 表达与 MDD 的 SMR 关联。
图 10. 重度抑郁症与基因表达水平的孟德尔随机化分析。
MDD 与 KCNE1、MAPK3 和 STIP1 表达水平之间孟德尔随机化关联的总结(A–F)。G Forest 图显示所有三个基因与 MDD 的孟德尔随机化结果。
所有纳入分析的 SNP 的 F 统计量范围在 29.855 至 3394.048 之间,表明存在强大的工具变量-暴露关联(阈值设定为 10)。HEIDI 测试的结果进一步表明,所有观察到的关联并非由连锁不平衡引起(P 值>0.01)。
总结
这项整合多组学和多重性状研究确定了多个连接氧化应激与重度抑郁症发病机制的基因,其中包括三个与重度抑郁症有因果关联的基因:KCNE1、MAPK3 和 STIP1。这些基因尤其可以作为重度抑郁症的诊断标志物和治疗靶点。此外,研究识别的其他几十个基因可能为重度抑郁症的新病理机制提供线索 。!
|