导语

结果:
机器学习和预后模型构建
使用三种类型的机器学习(图 S1A–E),维恩图揭示共有 24 个 Kla 相关基因(图 S1F)。由于基因数量仍然较多,通过 Lasso-Cox 回归确定了 12 个关键枢纽基因(图 S1G, H)。基于上述机器学习结果,利用 TCGA-LIHC 数据构建了预后模型,其中风险评分(Riskscore)= C1QTNF6*0.008462308 + CD34*−0.205297807 + CELSR3*0.043801835 + GBA*0.198880101 + HDAC11*0.070555719 + HSF4*−0.117793724 + IQCC*0.183044446 + NMB*−0.040033113 + NT5DC2*0.043509133 + NUDT17*0.007849363 + OLFML2B*0.188976501 + TMEM201*0.08126211。所有 12 个基因在肝细胞癌(HCC)患者中均显著高表达(p < 0.001)(图 S1I)。
TCGA 的荟萃分析结果显示,高风险组的预后较差,且无异质性(图1 A)。两张热图验证了这 12 个基因在癌症患者中均显著高表达(图 1 B, C)。ICGC 的 Kaplan–Meier(K–M)曲线显示,高风险组的预后较差(图 1 D)。此外,C1QTNF6、CD34、GBA 和 NUDT17 在 HCC 患者中表现出显著增加的表达(图 1 E–H)。

对 TCGA-LIHC 数据集的荟萃分析。B、C TCGA、ICGC 数据集中生存状态及相关基因表达的表达热图。D ICGC 数据集的 Kaplan-Meier 曲线。C1QTNF6(E)、CD34(F)、GBA(G)、NUDT17(H)阳性细胞数量和阳性率。I Cox 回归的单变量和多变量森林图。J 包含其他因素在内的 1、2、3 年决策曲线分析(DCA)。K 其他因素的一致性指数
其他因素分析
根据 Cox 回归分析,风险评分独立地影响了 HCC 患者的临床结果。单变量和多变量 Cox 回归中风险评分的 hazard ratios 分别为 4.07 和 3.54(p < 0.001)(图1 I)DCA 显示,与其他因素(如年龄和性别)相比,该模型具有最高的决策价值(图 1 J)。同时,一致性指数普遍大于 0.7,显著高于其他因素(图 1 K)。这表明该模型比常见因素具有更高的预测价值和准确性。
免疫浸润和单细胞分析
整合了六个数据库中各种细胞类型的数据。结果表明,在大多数情况下,高风险评分与免疫细胞的高风险评分相关(图2 A)。单细胞分析显示,在肝细胞癌患者中,免疫细胞显著富集,特别是 CD8 T+细胞、常规树突状细胞(cDC1)、M1 巨噬细胞(图 2 B–D)。细胞间通讯的结果反映了 CD8 T+细胞、cDC1 和恶性细胞的重要作用(图 2 E)。此外,恶性细胞与树突状细胞、内皮细胞、单核细胞和巨噬细胞之间的相互作用数量较高(图 2 F)。

Discov Oncol | 组蛋白乳酸化基因构建的HCC预后模型及免疫特征多组学分析
A 免疫细胞浸润与风险评分的相关性(红色表示正相关,蓝色表示负相关)。B、C UMAP 反映不同细胞类型和基因集表达。D 不同细胞类型的基因表达。E 单细胞分析及不同细胞聚类结果。F 细胞间通讯导致恶性细胞
免疫细胞的转录组
利用空间转录组,作者绘制了 HCC 组织中不同类型细胞的位置(图 3 A, E)。接下来,作者分析了 HCC 组织中 12 个基因的分布情况(图 3 B, F),并注意到 GBA 基因显著富集(图 S4)。恶性细胞中的 DEKlaGs 表达水平显著高于正常细胞(p < 0.001)(图 3 C, G)。此外,这些基因与肿瘤细胞含量显著正相关,与成纤维细胞、CD4+ T 细胞和自然杀伤(NK)细胞含量显著负相关。细胞间相关性显示,肿瘤细胞、中性粒细胞和肝细胞几乎与其他所有细胞呈负相关,而其他细胞之间呈正相关(图 3 D, H)。这些结果表明 Kla 基因可能影响 HCC 的免疫学特征。

A, E 空间转录组学去卷积后每个点细胞成分在细胞定位后的最大值。B, F 每个微区域的基因富集可视化。C, G DEKlaGs 在恶性区域、混合区域和正常区域的表达差异。D, H 基因表达与空间分辨率下微环境成分之间的斯皮尔曼相关性
孟德尔随机化结果
孟德尔随机化结果表明,TBNK 和单核细胞主要是肝细胞癌的风险因素,而 B 细胞和 T 细胞的成熟阶段主要是保护因素(图4 A, B)。

730 种免疫细胞的圆形热图,具有两种肝细胞癌结果,bbj-a-158 (A) 和 ieu-b-4953 (B)
qRT-PCR 实验验证结果
实验结果表明,Huh7 细胞中 GBA、HDAC11、IQCC、NMB、NT5DC2 和 TMEM201 的表达水平显著高于 LO2 细胞(图5 A–F),这与 TCGA-LIHC 数据集的数据一致。

通过 qRT-PCR 验证 DEKlaGs 表达水平的验证结果。A GBA,B HDAC11,C IQCC,D NMB,E NT5DC2,F TMEM201

总结

总之,作者通过机器学习识别了 12 个与组蛋白乳酸化相关的核心基因,并构建了一个对肝细胞癌(HCC)具有高诊断特异性的模型。此外,结果表明这些核心基因可能通过调节免疫细胞和恶性细胞影响肝细胞癌的发展 。