导语

6+单细胞+空转+实验,多组学搭配干湿结合,轻松就能发sci!
结果:

队列
作者在补充数据 1 中概述了样本来源。胃 precancerous Conditions 研究(GAPS)是一项前瞻性队列研究,研究对象为接受内窥镜检查且因症状(如消化不良、贫血)、个人史(如 GIM)或胃 cancer 家族史而增加胃 cancer 风险的人群。入组受试者根据更新的 Sydney 系统进行活检,通过标准化的组织学评估计算 OLGIM 阶段并确定幽门螺杆菌(Hp)定植情况。样本水平的表型数据和 RNA 测序指标可在补充数据 2 中找到。值得注意的是,虽然 GAPS 招募了患有活动性及已根除 Hp 感染的患者,但作者选择仅在组织采集时 Hp 阴性的患者中开发群体表达特征,以消除活动性 Hp 胃炎作为分析中的混杂变量。
TCGA 胃癌腺癌(TCGA-STAD)基因组数据集包含在基因组分析之前未接受化疗或放疗的胃癌样本15 。从这些样本中,作者分析了 180 例肠型胃癌原发肿瘤和 18 例患者匹配的肿瘤邻近对照的基因表达数据。作者通过 TCGABiolinks 16 R 包从基因组数据公共平台获取了去识别的患者临床表型和 RNA-seq 结果。肿瘤水平的表型数据(例如肿瘤位置)可在补充数据 3 中找到。
作者分析了跨越 Correa 级联(正常、NAG、CAG、GIM 和 GC)的胃癌病理 scRNA-seq 数据集。该样本集包括前瞻性收集样本的原始 scRNA-seq 数据以及公共数据集。总共,整合的 scRNA-seq 数据集包含 26 名患者的 40 例活检样本:2 例正常对照、3 例 NAG、3 例 CAG、13 例 GIM、9 例肿瘤邻近对照和 10 例原发胃癌。临床表型信息(标本位置和组织学)、细胞计数和测序指标可在补充数据 4 中找到。
在空间映射和定位方面,作者使用了来自五位患者(四位 GIM,一位 GC)的石蜡包埋组织(FFPE)。苏木精和伊红(H&E)染色的切片由一位专家病理学家在腺体水平上手动标注正常基底区、正常腺窝、化生、异型增生和癌变区域。对于空间转录组学,未染色的切片放置在 Visium 检测载玻片(10X Genomics)上,随后进行 H&E 染色和基于探针的测序。对于单分子多重荧光原位杂交(smFISH)检测,作者使用了紧邻 Visium 切片(距离在 10 μm 内)的未染色切片。用于空间验证的标本描述详见补充数据 5 。
多组学方法概述
多组学流程的概述见图1 。简而言之,这项分析包括以下内容:(i)利用 RNA-seq 数据(N = 88 样本;GAPS)发现高风险基因表达特征;(ii)使用 RNA-seq 数据(N = 215 样本;GAPS)在一个独立队列中验证高风险基因;(iii)通过空间转录组学检测将高风险基因映射到化生灶(N = 5 样本;空间队列);(iv)利用 RNA-seq 数据(N = 198 样本;TCGA)确定高风险 GIM 空间特征与肠型胃癌样本中差异表达基因的交集情况;(v)使用单细胞 RNA 测序(scRNA-seq)(N = 40 样本;scRNA-seq 队列)将高风险、空间映射的基因分配到特定的细胞亚群;(vi)使用 smFISH(N = 5 样本;空间队列)在单细胞分辨率下验证这些基因中的部分基因。每个步骤中选择的基因详见补充数据 6 – 9 。
图 1. 研究设计概述。
展示发现和正交验证基因标志物面板过程的多种组学流程图。每个步骤中显示了标志物基因的数量。该图由 BioRender.com 创建。
高风险与低风险 GIM 的基因表达分析
在基于 GAPS 的标志物发现阶段,队列的人口统计学、临床和组织学特征的详细总结。该队列以亚洲人(43%)和西班牙裔(24%)为主。在评估 OLGIM 分期时,56.4%为 OLGIM 0 期(无 GIM),16.6%为 OLGIM I 期,13.5%为 OLGIM II 期,9.2%为 OLGIM III 期,4.2%为 OLGIM IV 期。
作者使用常规 RNA 测序分析了 303 份胃部样本(153 份胃窦部样本,150 份胃体部样本),这些样本来自 163 个不同个体,数据来源于 GAPS 项目(补充数据 2 提供了组织病理学和测序指标的样本级数据)。这些样本在同一时间点采集。如果 OLGIM 分期为 III 期或 IV 期,则将样本分为高危组;如果 OLGIM 分期低于 III 期,则定义为低危组。该队列被分为一个包含 88 份样本(22 份高危样本,66 份低危样本)的发现组(来自 46 名患者)和一个包含 215 份样本(22 份高危样本,193 份低危样本)的独立验证组(来自 115 名患者)。发现组和验证组在高危样本数量上保持平衡;此外,两组的胃窦部和胃体部样本分布也相同。在进行差异表达分析之前,作者通过进行了无监督聚类,以确认高危和低危样本的优先分组。随后,作者使用 limma-voom 17 进行差异表达分析,采用了因子设计策略。
发现与高风险 GIM 相关的基因
从发现集中,作者识别出一份初步的 399 基因列表,这些基因在高风险样本中差异表达。同样地,作者排除了那些在胃窦和胃体之间差异表达谱存在显著差异的基因。接下来,作者进行了加权基因共表达网络分析(WGCNA) 18 ,以确定共表达基因的组,也称为基因模块。通过使用皮尔逊相关距离进行层次聚类,作者证明有两个模块的基因与高风险胃癌前体相关,而其他五个模块则不相关。
作者将两个信息丰富的 WGCNA 模块和差异表达分析中的基因进行交集,得到一个精炼的 314 基因集,这些基因满足:(i) 在两个解剖区域的高风险样本中差异表达,以及(ii) 在与高风险阶段相关的基因模块中共同表达(图 2a ,补充数据 6 )。从这 314 个基因子集中,作者识别出五个离散的表达簇,标记为 C-1 至 C-5(侧树状图)。簇 C-5 代表 105 个基因的子集,这些基因在高风险样本中过表达,Z 分数最高。该基因集包括已建立的 GIM 标志物,如 CDX1、FABP1 和 ACE2。除了成熟肠上皮细胞的标志物(ANPEP、CDH17) 19,20 ,作者还发现了肠道干细胞(如 OLFM4) 21 以及其他未成熟的肠道谱系标志物,如转运扩增细胞(DMBT1) 22 。作者将胃上皮中表达肠道干细胞标志物的未成熟细胞群体称为“肠道样干细胞”。
图 2. 高风险表达特征的发现与验证
a 88 份样本(88 samples)的发现队列中差异表达和共表达基因的热图和层次聚类分析,包括 22 份高风险样本(定义为手术分期 III-IV 期)和 66 份低风险样本(定义为手术分期 0-II 期)。大多数高风险样本与低风险组明显且独立地聚集,无论活检的解剖部位如何(顶部树状图)。发现一组基因在高风险和低风险样本之间存在差异表达。聚类-5(C-5)代表 105 个基因,这些基因的表达仅在高风险样本中上调,无论解剖位置如何。b 作者在验证队列(22 份高风险样本和 193 份低风险样本)中发现了 C-5 中的 100 个基因差异上调,证实了高风险 GIM 的稳健特征,该特征与位置无关。这些 100 个基因的过度代表分析结果散点图:(c)基因本体术语富集于肠道过程(例如,刷状缘、肠道吸收);(d)细胞类型特征基因集富集于成熟和未成熟/胎儿肠道细胞类型。
验证与高风险 GIM 相关的基因
接下来,作者在 215 例样本的独立验证集中验证了这些结果。在发现集中从 C-5 簇中识别出的 105 个基因中,作者发现验证集中高风险样本中一致过表达的基因有 100 个(95.2%)(图 2b )。完整的基因列表见补充数据 7 。为了表征这些 100 个基因的功能通路和细胞关联,作者使用 clusterProfiler 23,24 进行了超表达分析。作者从 MSigDB 数据库 25–27 中选择了与基因本体和细胞类型相关的基因集。富集的基因本体术语(图 2c )包括肠吸收(SLC2A5, ABCG8, ABCG5, MOGAT2, PRAP1, FABP1)和刷状缘的存在(ACE2, SLC28A1, SLC2A2, MME, SLC6A19, SLC7A9, MTTP, MYO7B)以及其他与肠相关的过程。与这些发现一致,作者发现某些细胞谱系基因集富集(图 2d ),包括成熟(SLC2A5, APOC3, ACE2)和胎儿肠细胞(LRRC19, CELP, RBP2),以及未成熟肠细胞(DMBT1, CPS1)。 富集的基因本体术语和细胞谱系基因集的完整列表可在补充数据 10 、 11 中获得。
空间转录组学将高风险表达特征映射到异型增生灶
接下来,作者使用空间表达分析技术(Visium,10X Genomics)将高风险表达特征基因映射到 GIM 区域。作者为这些样本生成了广泛的组织病理学注释,所有样本均包含(i)正常基底、(ii)正常腺窝或(iii)异型化灶区域。一个 GIM 样本( P09788 )的示例如图 3 所示。作者使用每个样本区域内聚合的斑点进行差异表达分析,比较异型化区域与正常腺窝或基底的差异,采用“伪批量”分析方法。显著上调的基因被定义为具有正向倍数变化且 FDR 校正 P 值≤0.05 的基因。在所有样本中,作者确定有 458 个基因在异型化灶区域相比于正常腺体基底和腺窝均显著上调(补充数据 8 )。
图 3. 高风险特征的空间分辨率。
a 一个在病理学家标注了正常腺体结构(基底和腺窝)和化生的 Visium 载玻片上 DMBT1 的表达谱示例。DMBT1 作为空间解析基因映射到病理学家标注的化生区域的示例,而 SLC30A10 作为未映射到化生区域的基因示例被从空间解析特征中舍弃。b 描绘了空间伪批量分析中 36 个差异表达基因的热图,这些基因与 GAPS 的批量 RNA-seq 特征交集(FDR 调整后的 P 值≤0.05;分析使用 limma-voom 进行)。c 散点图显示了空间队列中 36 个上调基因的 log2 倍数变化(X 轴)和 TCGA 的 log2 倍数变化。两种分析中均过表达的 26 个基因显示为红色。d 将精炼的 26 基因特征映射到 Visium 点上的空间映射。e 在化生灶与正常胃基底或腺窝之间比较 26 基因特征的差异(Kruskal-Wallis 和 Dunn 检验 FDR 调整后的 p < 0.001)。注意:每个 Visium 点的直径为 55 µm,相邻点中心间距为 100 µm。
接下来,作者将先前验证的表达特征中的 100 个基因与空间转录组分析中映射的 458 个基因进行交集。值得注意的是,在验证的表达特征中,有 36 个基因(36%)在化生腺体区域特异性表达(例如,DMBT1,图 3a ;其他空间解析基因见图 3b )。总体而言,这一结果识别了 36 个高风险差异表达基因,这些基因映射到病理学家标注的化生区域。
高风险表达、空间映射特征的关联性与胃癌
作者确定了在空间映射的 36 个高危基因中有多少个在 GC 的肠型亚型中也表现出差异表达。这一分析步骤使用了来自 TCGA-STAD 队列的 RNA-seq 数据。作者进行了差异基因表达分析,比较了 180 例均为肠型的胃癌与 18 例匹配的肿瘤邻近胃组织。作者比较了 TCGA 分析与空间基因表达分析中 36 个基因的倍数变化(补充数据 9 )。在那些在高危 GIM 中显著过表达(相对于低危 GIM)、定位于化生灶并始终在 GC 中上调的基因中,有 26 个基因存在交集(图 3c )。
作者使用复合特征评分 28,29 在胃化生灶中量化了这 26 个基因的表达。与正常胃底或腺窝区域相比,五个空间样本中映射到化生灶的 Visium 点中,26 基因评分显著更高(Kruskal-Wallis 和 Dunn 检验 FDR 调整 p < 0.001)(图 3d )。总体而言,这一组特征对化生具有高度特异性,并未映射到任何其他正常胃区域。该基因特征包括不成熟肠系谱的已知标志物(OLFM4, DMBT1) 21,22 和成熟肠细胞的标志物(ANPEP, CDH17) 19,20 。
高风险空间特征在肠细胞和肠样干细胞中均有表达
作者使用单细胞 RNA 测序(scRNA-seq)来确定在胃癌(GC)、癌前病变和正常样本的 40 个样本中所有细胞的 26 基因特征。联合数据集总共包含 116,643 个单细胞。从这些数据集中,作者鉴定出九个主要的细胞谱系:上皮细胞、T 细胞和 NK 细胞、B 细胞、基质细胞(成纤维细胞)、浆细胞、内皮细胞、髓系(巨噬细胞和树突状细胞)、肥大细胞和平滑肌细胞。这个特征高度特异于上皮细胞亚群 。
作者随后在单细胞水平上分析了上皮细胞亚群。作者根据特定标记的表达情况注释了 18 个细胞簇(图 4A )。作者首先识别了广泛分布于胃的细胞(TFF2、MUC5AC)和广泛分布于肠的细胞(REG4)。胃细胞簇包括主细胞(LIPF、PGA3、PGA4、PGA5)、壁细胞(ATP4A、ATP4B、GIF、CKB)、颈细胞(STMN1、MKI67、HMGB2)、管泡细胞(CAPN8、TFF1、GKN1、GKN2、SULT1C2)、内分泌 G 细胞(NKX6-3、GAST、CHGB)、LYZ 阳性/颈细胞(AQP5、MUC6、PRR4、LYZ)以及表达金属硫蛋白的细胞(MT1X、MT2A、MT1G、MT1H、MT1E)。
图 4. 高风险特征表达的细胞类型的单细胞鉴定
一个显示参考映射上皮细胞的统一流形近似和投影(UMAP)图。B UMAP 图显示上皮细胞类型的模块评分。C 使用 scRNA-seq 队列中的所有 40 个样本比较不同细胞类型的模块评分。TA,过渡扩增细胞。D 显示按细胞类型缩放的 26 个基因表达的热图。E 堆叠条形图描绘每个样本中不同细胞类型的比例,按 Correa 级联的阶段排序。胃谱系被归为一个类别。EGC 早期胃癌。F 比较 Correa 级联中的模块评分(所有比较 p < 0.001)。G 比较 GC 和肿瘤邻近对照组织的模块评分(p < 0.0001)。
在 REG4+ 肠道谱系中,作者识别出早期和成熟肠上皮细胞(CDH17、FABP1、FABP2、KRT20、GPA33)、杯状细胞(SPINK4、MUC2、TFF3)、迁移扩增细胞(DMBT1)以及肠道样干细胞(OLFM4、LEFTY1)。肠道样干细胞与峡部细胞存在一些共同的转录特征,包括 MKI67、STMN1 和 HMGB2 的表达。大约 10%的肠道样干细胞表达 CDCA7,这与 LYZ 阳性/颈部细胞中的观察结果相似。有趣的是,这些细胞中的一小部分(约 5%)也表达 LGR5,而这一比例在 LYZ 阳性/颈部细胞中也相似。为了进一步分析,作者将具有肠道特征的未成熟细胞(混合胃/肠道前体细胞、早期肠上皮细胞、迁移扩增细胞和肠道样干细胞)统称为“未成熟肠道细胞”。作者发现,与未成熟肠道细胞相比,26 基因特征中的不同基因集在成熟肠上皮细胞中显著富集(图 4B, C ,补充数据 13 )。值得注意的是,26 基因特征在所有正常胃谱系中几乎不存在。
接下来,作者检查了每个基因在上皮细胞类型中的表达情况,以突出显示表达水平最高的细胞。由于原始特征中不包括作为杯状细胞特异性标志物的基因 TFF3,作者还包括了该基因。基因树状图揭示了三组不同的基因:六种基因在所有肠系中被表达(ADH6、SLC39A5、GUCY2C、CLDN3、ONECUT2 和 CDX1),16 种基因仅在成熟肠系中被表达(MYO7B、FLVCR2、RNF186、HKDC1、SLC7A9、SLC6A19、PRAP1、TM4SF20、MEP1A、VNN1、ANPEP、BTNL3、CDH17、EFNA2、ANXA13 和 CHP2),以及四种基因主要在未成熟肠细胞中被表达(OLFM4、ADGRG7、CPS1 和 DMBT1)(图 1)。有些基因如 CPS1,尽管主要由肠样干细胞表达,但在分化肠细胞中也表达(水平较低)。类似地,一些基因(如 HKDC1)在分化肠细胞中表达水平最强,但在肠样干细胞中也以较低程度表达。
作者分析了 Correa 级联中不同细胞谱系的比例(图 4E )。正常、NAG 和 CAG 胃组织样本中几乎没有肠细胞。相比之下,GIM 的特征是成熟和未成熟肠谱系的存在非常明显。有趣的是,GC 的特征是肠样干细胞显著富集,而分化的小肠杯状细胞和肠细胞有大量相对损失。这些结果表明,GIM 中未成熟肠细胞群体的持续扩张可能是肠型 GC 进展的重要指标和贡献者。接下来,作者观察到 26 基因特征评分随着 Correa 级联的进展阶段和与肿瘤旁对照相比在 GC 中增加(补充数据 14 、补充数据 15 和图 4F )。值得注意的是,与来自非癌患者的 GIM 相比,肿瘤旁 GIM 的特征模块评分有显著增加。在单独的分析中,作者分析了来自作者先前发表的一篇论文的 GC 与患者匹配的肿瘤旁对照组织之间的特征评分(图 4G )。 正如预期,作者发现 26 基因特征在肿瘤细胞中相对于肿瘤邻近胃组织中显著增加(Welch’s T 检验 P < 0.0001)。
单分子荧光原位杂交技术在化生腺体的峡部/隐窝区域揭示了肠道样干细胞
smFISH 检测采用原位 RNA 杂交技术,可在单分子亚细胞分辨率下可视化最多十二个基因的空间表达,并实现空间和细胞水平基因表达数据的同步整合。基于 scRNA-seq 结果定义的异常肠样干细胞群体,作者选择了其中十一种特征基因进行 smFISH 检测。这些基因包括不成熟肠细胞标志物(OLFM4、CPS1、DMBT1)、肠上皮细胞标志物(HKDC1、ANPEP、CDH17、CLDN3、ANXA13),或在整个肠系中表达的基因(CDX1、SLC39A5、ONECUT2)。作者还加入了 TFF3 作为特定的杯状细胞标志物。成像后,将结果与匹配的 H&E 图像进行病理学解读比较。
值得注意的是,在所有样本中,所选基因均未在正常胃腺中表达。作者识别出几种仅存在于化生组织中独特的细胞区室(图 5 )。第一个区室由成熟或分化的肠细胞组成,其特征是 TFF3(杯状细胞)表达强烈,ANPEP 信号中等(肠细胞)。第二个区室由强烈表达干细胞标记(OLFM4、DMBT1 和 CPS1)的细胞组成;这些柱状细胞具有高核质比,位于化生腺体的隐窝区域附近,并与成熟标记在空间上相互排斥。这些结果提供了额外的证据,证实了先前在 scRNA-seq 结果中识别的肠道样干细胞的存在。有一些基因(ONECUT2 和 HDKC1)在成熟和未成熟细胞中普遍表达。然而,在腺体峡部/隐窝区域的 OLFM4、DMBT1 和 CPS1 阳性干细胞中,其表达显著更高。 在一个早期的胃癌样本中,作者观察到未成熟肠道细胞标志物(OLFM4、DMBT1 和 CPS1)以及 CDX1 和 HKDC1 的表达水平,在含有分化不良肿瘤腺体的区域显著高于表达 TFF3 的分化良好肿瘤腺体区域。这些发现与 H&E 染色中观察到的细胞表型一致,并反映了肠道样干细胞区域以及 GIM 中观察到的分化杯状细胞和肠上皮细胞区域的分子特征。smFISH 结果提供了单细胞空间分辨率,并证实了在化生腺体中存在不同的细胞区室,这些区室由成熟的肠道谱系(肠上皮细胞和杯状细胞)或未成熟的谱系组成。
图 5. 胃肠道化生(GIM)的单分子荧光原位杂交(smFISH)
A, B 代表性区域显示样本P08563 (手术连接 III)中 GIM 的 H&E 染色,以及六个基因:OLFM4、CPS1、HKDC1、DMBT1、ANPEP 和 TFF3 的 smFISH 特征叠加。C, D 分别为(A)和(B)中高亮区域的放大图(顺时针旋转 90 度)。E (C)和(D)中的高亮区域,显示 H&E 染色和富含肠样干细胞区域的单个通道。这些细胞表现出 OLFM4、DMBT1、CPS1 和 HKDC1 的高表达,以及 ANPEP 的适度表达。F (C)和(D)中的高亮区域,显示 H&E 染色和富含分化良好(成熟)细胞的单个通道。这些细胞表现出 TFF3 的高表达和 ANPEP 的适度表达。这些基因的表达在空间上与未成熟细胞标记是互斥的。

总结

利用多个独立队列,作者采用结合空间和单细胞方法的整合转录组学方法,进一步表征高风险 GIM 的分子和细胞特征。作者鉴定出 26 个基因组成的离散集合,这些基因与高级 OLGIM 阶段相关,在异型增生灶中空间定位,由异常上皮细胞表达,在肠型 GC 中差异表达,并可用于区分 GC 前体中的成熟和未成熟肠细胞。作者发现,随着组织学严重程度的增加,肠样干细胞标志物的表达量增加。这些数据对未来癌症预防具有重要意义 。