导语

结果:

工作流程
为识别和优先排序与阿尔茨海默病(AD)相关的基因,作者将全基因组关联研究(GWAS)的汇总水平数据与表达数量性状位点(eQTL)数据进行了整合。如图 1 所示,作者结合了五个近期 AD GWAS 数据集、两个来自 AD 脑样本单细胞测序的细胞类型水平 eQTL 数据集,以及先前研究中获得的组织水平 Metabrain eQTL 数据集(如“ Methods ”所述)。如图 1 所示,作者首先采用 SMR 方法评估与 AD 风险相关的 SNP 如何影响基因表达,随后使用 Coloc 验证特定基因组区域内遗传变异的共定位情况。作者识别出 28 个符合严格标准的候选因果基因(图 2 )。作者探索了相关变异如何以细胞类型特异性的方式调控基因表达,利用了脑组织中关于细胞类型特异性增强子或启动子的先前数据。此外,作者将研究结果与先前研究进行比较,以突出那些先前支持较少的新候选基因(如图 1 所示)。对于这些新基因,作者可视化了共定位结果,并从早期研究中提取差异基因表达数据,以确认它们与 AD 的关联。 最后,作者评估了优先考虑的候选因果基因的可成药性,以探索潜在的治疗靶点。

研究工作流程。由 BioRender 创建

7+SMR+共定位+WGCNA,鉴定细胞特异性靶点方向的文章,纯生信就能做出来!
SMR beta 值符号来自 SMR 和共定位分析的候选因果基因。注意:所有五个 GWAS 数据集的结果都被合并。候选因果基因通过 SMR FDR<0.05、HEIDI>0.05、Coloc PPH4>0.75、Coloc PPH4/PPH3>3 进行筛选
检测到的候选因果基因的总结结果
作者整合了五个近期阿尔茨海默病(AD)全基因组关联研究(GWAS)数据集,以及从 AD 脑样本单细胞测序获得的两个细胞类型水平 eQTL 数据集,还有先前研究中获得的代谢脑组织水平 eQTL 数据集(图 2 )。Bryois 的单细胞 RNA 数据来自包括颞叶皮层、白质和前额叶皮层在内的多个区域,而 Mathys 等人单细胞 RNA 测序数据来自背外侧前额叶皮层(DLPFC)区域(图 2 )。利用 SMR、HEIDI 以及 Coloc 分析,作者在这些数据集中识别出 28 个符合筛选标准的候选因果基因:SMR FDR<0.05,HEIDI p值>0.05,Coloc PPH4>0.75,以及 Coloc PPH4/PPH3>3,如图 2 所示。在 28 个候选因果基因中,有两个( AL355353.1 和 AL137789.1 )是长链非编码 RNA 基因,其余 26 个是信使 RNA 基因。如附加文件 2 :图 S1–S5 所示,Bellenguez AD GWAS 汇总统计数据与其他 AD GWAS 数据集相比,揭示了最多的候选因果基因。 在 28 个候选因果基因中,12 个在细胞类型水平上独特检测到,7 个在细胞类型和批量分析中共享,9 个在批量水平上独有(附加文件 2 :图 S6。此外,作者注意到细胞类型水平 eQTL 和批量水平 eQTL 数据集之间存在一致的 MR beta 符号。 EGFR、SNX31、PABPC1、ACE、ARL17B、PRSS36 和 LRRC37A 在批量水平和细胞类型水平数据集中被识别,且效应方向一致(图 2 ,图 S6)。此外,TSPAN14、GRN、CD2AP、APH1B、SLC39A13、FCER1G、CR1、NDUFAF6、TP53INP1 在批量代谢脑 eQTL 数据集中被识别为候选因果基因(图 2 ,图 S6)。RIN3、PICALM、JAZF1、RABEP1、KANSL1、 AL355353.1 、SCIMP、USP6NL、CASS4、FERMT2、BIN1、 AL137789.1 在细胞类型 eQTL 数据集中被识别为候选因果基因(图 2 ,图 S6)。
通过所有 GWAS 数据集的综合结果,在 19 个细胞类型水平的候选因果基因中,有 16 个仅在一种细胞类型中被发现具有因果性(图2)。而包括 ACE、ARL17B 和 SCIMP 在内的 3 个基因在多种细胞类型中具有一致的 MR beta 符号,如图 2 所示。在微胶球细胞中检测到的候选因果基因数量最多,其次是兴奋性神经元、星形胶质细胞、抑制性神经元、少突胶质细胞和 OPCs(图 2  )。作者识别出 5 个细胞类型特异的候选因果基因(EGFR、SNX31、PICALM、JAZF1 和 RABEP1),这些基因在 snRNA eQTL 数据集中均有检测到。
为评估本研究中识别的候选因果基因的新颖性和鲁棒性,作者将它们与先前文献[ 4 , 6 – 8 , 10 , 11 , 14 , 15 , 33 , 34 ]进行交叉参考。根据基因是否得到先前整体水平或细胞类型特异性研究的支持(Agora 提名或 SMR 或 Coloc 分析的显著检测)或代表新发现,将基因分组。首先,在整体水平数据集中独有检测到的 9 个候选因果基因,均已在文献中报道[ 4 , 6 , 10 , 15 , 33 ]。有趣的是,FCER1G、GRN、CD2AP、APH1B 和 CR1 在先前研究中也被通过共定位或 SMR 分析识别为细胞类型水平的因果基因[ 11 , 14 ]。其次,在细胞类型水平数据集中独有识别到的 12 个基因中,包括 RIN3、BIN1、CASS4、RABEP1、 AL355353.1 、SCIMP、USP6NL、PICALM 的基因,均得到整体水平和细胞类型水平的证据支持[ 4 , 6 – 8 , 10 , 11 , 14 , 15 , 33 , 34 ]。 KANSL1、 AL137789.1 和 FERMT2 在整体水平上已有先前支持[ 4 , 6 , 10 , 15 , 33 ],而 JAZF1 在细胞类型水平上已有先前支持[ 11 , 14 ]。此外,先前已知的候选因果基因 AL137789.1 和整体水平上的 FERMT2 在本研究中通过新的细胞类型水平证据得到了确认。最后,在细胞类型水平和整体水平数据集中均识别出的 7 个基因中,ACE 和 PRSS36 已同时被整体和细胞类型水平证据支持[ 4 , 6 – 8 , 10 , 11 , 14 , 15 , 33 , 34 ]。EGFR, SNX31, ARL17B 和 LRRC37A 在整体水平上已有先前支持[ 4 , 6 , 10 , 15 , 33 ],并在本研究中通过新的细胞类型水平证据得到了确认。最后,PABPC1 通过 SMR 和共定位分析成为一个新的候选因果基因,没有或有限的先前支持证据。
为分析已识别候选因果基因之间的相互作用,作者根据方法部分构建了蛋白质相互作用网络。作者的蛋白质相互作用分析揭示了 23 个候选因果基因编码的蛋白质之间的相互作用,除了 PRSS36、CR1、TSPAN14、FCER1G、SLC39A13 这五个基因,它们在网络中没有检测到相互作用,如图 3 A 所示。在星形胶质细胞中识别的 EGFR 是连接度最高的节点(n=7 个相互作用),表明它可能作为中心枢纽协调多个通路中的信号(图 3 A)。其他连接度较高的基因包括 RIN3、CASS4 和 PICALM,它们主要在微胶质细胞中被检测到,每个基因均有六个相互作用(图 3 A)。在微胶质细胞表达的基因之间观察到一些强相互作用,例如 BIN1~RIN3、CASS4~FERMT2 和 CD2AP~PICALM,表明存在密集的微胶质细胞亚网络(图 3 A)。

候选因果基因网络分析和通路富集。A 候选因果基因的 STRING 蛋白质相互作用(PPI)网络。节点代表蛋白质,而边表示它们之间的相互作用。每个节点的形状用于表示候选基因的检测背景:椭圆表示仅在细胞类型水平数据集中检测到的基因,菱形代表仅在批量水平数据集中发现的基因,矩形则表示在细胞类型水平和批量水平分析中均共享的基因。边的粗细对应于 STRING 的综合相互作用评分。ACE 和 SCIMP 在兴奋性神经元和抑制性神经元中均有检测到,而 ARL17B 在小胶质细胞和 OPCs 中均有检测到。B 基于 Gene Ontology(GO)生物学过程类别的候选因果(mRNA)基因通路富集。C 基于 Reactome 通路候选因果(mRNA)基因通路富集。
为识别富集通路和过程,作者对 26 个候选因果 mRNA 基因进行了基于多个最新数据库的富集分析,包括 KEGG 2021 人类、Reactome 通路 2024、WikiPathways 2024 人类、GO 生物学过程 2025、GO 细胞组分 2025、GO 分子功能 2025。富集分析显示,候选因果基因与膜组织、细胞迁移以及 ERK1/2 和 PI3K/AKT 级联等关键信号通路(GO 生物学过程)显著相关(图 3 B)。基因还富集在囊泡、早期内体、焦点粘附、轴突和树突等细胞组分中(图 S7)。Reactome 分析突出了膜运输、囊泡介导的运输和网格蛋白介导的内吞作用作为显著富集的通路(图 3 C)。
新发现的星形胶质细胞特异性候选因果基因共定位的可视化
作者使用 eQTpLot 来可视化新发现的候选因果基因 PABPC1 的 eQTL(来自 Mathys 等人[ 20 ]的星形胶质细胞特异性 eQTL)与 AD GWAS[ 4 ]信号之间的共定位。如图 4 A–C 所示,PABPC1 被指示受到主要 GWAS 显著位点 rs1693551 的影响(GWAS P 值:1.785e−08;Beta:0.0459,来自 Bellenguez 等人[ 4 ] AD GWAS 汇总统计数据)。作者的分析表明,rs1693551 也可能影响附近的另一个基因 SNX31( 图 2 和图 4 B)。作者观察到 eQTL 在 AD GWAS 显著变异列表中呈过度代表趋势(星形胶质细胞中 PABPC1 的 p 值=1.12e−4)(图 4 D)。对于 PABPC1,在星形胶质细胞基因表达和 AD 风险上观察到一致的 SNPs 效应(图 4 A, E, F)。 eQTpLot P 值相关性分析进一步证实了星形胶质细胞中 PABPC1 基因表达与 AD 风险的相关性,如图 4 E 所示(r=0.85, p=1.19e−72)。在最新的 GWAS 研究中,具有参考等位基因 T 和替代等位基因 C 的变异 rs1693551 未被识别为新的风险位点[ 4 ]。然而,作者的分析显示其超过了全基因组显著性阈值,如图 8 的曼哈顿图(附加文件 2 : 图 S8)所示。此外,作者还观察到 PABPC1 基因表达与 AD 风险的共同因果变异与 Metabrain 的 eQTL 数据集存在共定位(附加文件 2 : 图 S9)。

eQTpLot 展示基因PABPC1 的 eQTL 与 AD 的 GWAS 信号共定位情况。GWAS 数据集来自 Bellenguez 等人[ 4 ],而星形胶质细胞的细胞类型 eQTL 数据集来自 Mathys 等人[ 20 ]。A 显示了目标位点,包含 PABPC1 基因,沿水平轴标示了染色体空间。垂直轴上每个点的位置对应该变异与 AD 关联的 p 值,而每个点的颜色标尺对应该变异与 PABPC1 表达关联的 p 值大小。具有一致效应的变异使用蓝色标尺绘制,而具有不一致效应的变异使用红色标尺绘制。每个三角形的指向对应 GWAS 效应方向,而每个三角形的大小对应 eQTL 数据的效应大小。GWAS 分析的默认全基因组 p 值显著性阈值 5e−8 用一条水平红线表示。B 显示了 AD 内所有基因的基因组位置。 C 描绘了所有 PABPC1 eQTL 变异的 LD 信息热图,在 A 和 B 图相同的染色体空间中显示,以便参考(R2min=0.1,LDmin=10)。D 描绘了 PABPC1 eQTL 在 GWAS 显著变异中的富集情况,而 E 和 F 则描绘了 PABPC1 和 AD 的 PGWAS 与 PeQTL 之间的相关性,图上显示了计算的 Pearson 相关系数(r)和 p 值。对于 E,分析仅限于效应方向一致的变异,而对于 F,分析仅包括效应方向不一致的变异。在 E 和 F 中都标明了主变异,这两个变异在 A 中也进行了标记。
孟德尔随机化(MR)和共定位分析确定了星形胶质细胞中PABPC1 基因表达与阿尔茨海默病(AD)风险之间的因果关系。为进一步探索这一关系,作者检查了星形胶质细胞及其亚型中的 PABPC1 表达,以及其与 AD 病理、认知功能和 AD 组别的关联。具体而言,作者利用了一项先前研究[ 20 ]中关于背外侧前额叶皮层(DLPFC)区域差异基因表达(DEG)的结果,并应用了多重检验校正。补充文件#1:图 S10 中呈现的发现表明,星形胶质细胞中的 PABPC1 表达与感知定向显著相关,但与 AD 诊断无关联。此外,星形胶质细胞亚型 GRM3 中的 PABPC1 表达与缠结密度显著相关。
含有 AD 风险变异的增强子调控细胞类型特异性基因表达
作者的结果揭示,某些基因,如 PABPC1,仅在一种细胞类型中被识别为候选因果基因,而在其他脑细胞类型中并未发现。为了探索 SNP 与基因表达的关系,作者检查了基因型依赖性表达模式,发现从 TT 基因型到 TC 基因型再到 CC 基因型,PABPC1 的表达呈现逐步增加的趋势,且仅在星形胶质细胞中观察到(FDR=5.32×10⁻¹²)(图 S11)。受相同 SNP 影响的邻近基因 SNX31 在星形胶质细胞中也表现出比兴奋性神经元(FDR=0.017)和 OPCs(FDR=0.00038)更强的 eQTL 关联(图 S12),这表明该位点可能存在星形胶质细胞特异性的调控机制。这突显了许多候选因果基因可能仅限于单一细胞类型。为了进一步理解这种细胞类型特异性效应,研究这些变异如何影响基因表达及潜在的调控机制至关重要。增强子是调控基因表达的基因组区域,通常以细胞特异性方式发挥作用。 一项先前研究[ 19 ]分析了人脑细胞核中的增强子和启动子活性,揭示了与脑特征和疾病相关的遗传变异表现出细胞特异性的增强子富集模式。为了确定作者研究中识别的细胞型特异性因果基因是否受细胞型特异性增强子活性的调控,作者分析了一个公开可用的数据集,包括针对开放染色质区域的 ATAC-seq 以及针对每个脑细胞类型的活性增强子(H3K27ac)和启动子(H3K4me3)的 ChIP-seq,具体方法见方法部分。
如图5 所示,对于星形胶质细胞中的候选因果基因 PABPC1 和 SNX31,相关疾病变异为 rs1693551(chr8,hg19 位置:10,675,584 bp),该变异位于先前研究中确定的星形胶质细胞特异性增强子边界(chr8,hg19 位置:101,675,643–101,676,301 bp)仅 59 bp 处。鉴于其靠近增强子边界,增强子区域可能超出了检测范围,尤其考虑到增强子的动态特性以及当前检测方法的技术局限性。图 5 显示,该增强子位于 PABPC1 基因下游和 SNX31 基因上游,仅在星形胶质细胞中活跃,这通过显著的 H3K27ac 和 ATAC-seq 峰得到证实,而在其他细胞类型中不活跃。这表明该变异可能通过细胞类型特异性增强子影响基因表达,这可以解释为什么 PABPC1 仅在星形胶质细胞中被检测为因果基因,以及为什么 SNX31 的表达比其他细胞类型更受该位点基因型的影响。

通过 UCSC 基因组浏览器(hg19)的脑细胞类型特异性染色质图谱。一个 H3K27ac 和 ATAC-seq 数据用于PABPC1,显示特定于星形胶质细胞的活性增强子区域和开放染色质,黄色垂直线标记了相关疾病变异的位置,虚线方框显示了活性增强子区域。
此外,一项来自 11 例死后女性大脑样本(前额叶皮层)的先前 Hi-C(高通量染色体构象捕获)数据集,包括 4 例阿尔茨海默病(AD)病例、4 例老年认知正常对照和 3 例年轻认知正常对照,揭示SNX31、rs1693551 和 PABPC1 位于年轻和老年对照大脑中都存在的染色质环中,但在 AD 大脑中显著缺失[ 35 ](图 S13)。rs1693551 风险等位基因的剂量增加与 SNX31 和 PABPC1 表达升高相关,表明该 SNP 可能影响共享调控域内的转录。
药物可成药性分析及药物/化合物预测
为了从作者的候选因果基因中识别可药物基因,作者根据先前的药物分级分类将它们进行分类[ 27 ]。第一级包括已批准药物和临床候选药物的靶点;第二级包括已知具有药物样相互作用或与已批准药物靶点高度相似的靶点;第三级包括与药物靶点具有较远相似性或属于关键可药物家族的蛋白质,如方法中所述,作者确定了三个候选因果基因 EGFR、ACE 和 APH1B 为第一级可药物基因,以及三个基因 GRN、PRSS36 和 CR1 为第三级可药物基因。其余候选因果基因根据先前研究[ 27 ]未被分类为可药物基因。对于这些不可药物基因,作者使用 EpiGraphDB 来优先考虑同一蛋白质相互作用网络中的潜在替代药物靶点。作者使用 IntAct 和 STRING 数据库的蛋白质相互作用网络,直接确定了与 AD 相关的相互作用基因,具有第一级可药物性。
为识别本研究中确定的因果基因的药物靶点,并拓宽潜在药物靶点的范围,作者使用 DSigDB 进行了药物/化合物富集分析。该分析旨在为所有靶基因寻找潜在药物,这些靶基因包括本研究中确定的药物可及性因果基因以及与 Tier 1 药物可及性直接相互作用的基因。富集分析的结果展示。作者重点关注调整 p 值小于 0.01 的药物,并根据其调整 p 值选择了最显著的 10 种潜在药物/化合物 。图 6 A 展示了按基因比例分组(靶基因与药物基因集交集的百分比)的药物。在每个组内,药物按其调整 p 值的显著性进行排序。 结果表明,3-(1-甲基吡咯烷-2-基)吡啶靶向的基因数量最多,包括 16 个靶基因:EGFR、ACE、MAPK1、TNFRSF1A、EEF2、ADRB2、CD4、APP、TFRC、ITGAL、PLD1、FYN、PIK3CA、RAF1、TP53 和 VEGFA。在第二组中,地诺前列酮是最显著的药物,靶向 14 个基因。在第三组中,甲磺酸伊马替尼是最显著的药物,靶向 13 个基因,其次是组胺。甲磺酸伊马替尼在所有组中均被检测为最显著的药物。这 10 种最富集的药物(图 6 A)在阿尔茨海默病治疗应用方面显示出潜力,需要进一步研究。

潜在药物富集分析和基因-药物相互作用网络。A 基于 DSigDB 预测的 Top 10 富集药物/化合物。B 交互网络,展示了富集药物/化合物与靶基因之间的联系。蓝色圆圈表示本研究中识别的可药物化/不可药物化因果基因,绿色圆圈代表与不可药物化因果基因相关的可药物化相互作用基因,粉色节点表示 Top 10 富集药物/化合物。
为了说明药物与靶基因(本研究中确定的因果基因以及与阿尔茨海默病相关的直接相互作用基因(Tier 1 可成药性)之间的相互作用,作者使用 Cytoscape 构建了一个相互作用网络,如图 6 B 所示。该网络突显了 Tier 1 可成药基因,如 EGFR(被前 10 种药物全部靶向)和 ACE(被前 10 种药物中的 5 种靶向)(图  6 B),这些基因被多种药物直接靶向。此外,Tier 3 可成药基因 CR1 被伊马替尼甲酸盐直接靶向。在网络中,可成药和非可成药的因果基因用蓝色圆圈表示;相互作用基因用绿色圆圈表示,药物/化合物用粉色描绘(图  6 B)。网络的中心区域展示了药物和 Tier 1 可成药基因,表明直接靶向,而周围组则代表相互作用基因和非可成药的因果基因,这些基因通过这些相互作用间接靶向。 该可视化展示了前 10 种药物在靶向多个因果基因中的作用和意义,包括直接和间接作用(图 6 B)。

总结

作者的分析识别了新的和已建立的候选因果基因,阐明了它们在阿尔茨海默病分子机制中的作用,并强调了细胞类型特异性在基因表达调控和增强子活性中的重要性。