辛辛苦苦做的生信分析,发文章总被审稿人要求“补实验”?这几乎是每个“生信人”心中最大的痛。但如果告诉你,现在有一套“神仙组合”——网络毒理学搭配机器学习,不仅逻辑清晰、故事完整,更能让你理直气壮地“纯生信”发文章,你会不会心动?今天,我们就来深度拆解一篇新鲜出炉的6分+研究,看作者是如何仅靠这一套“神仙组合”,在没有新增任何验证实验的情况下,漂亮地完成整个科研闭环,堪称“高性价比”的典范。
结果:
通过对作者先前研究的 345 例儿童骨肉瘤患者(Xu 等,2024)的分析,作者发现,在 2000 年 1 月至 2019 年 5 月期间,这些患者中的大多数居住在广东省,共有 293 例( 图 1A 和 B)。在分析的 293 例儿童骨肉瘤患者中,广东省排名前四的居住城市是广州(n=75)、深圳(n=37)、佛山(n=3)和东莞(n=16)( 图 1C)。
图 1. 儿童骨肉瘤患者的地理分布和人口统计学特征。(A)2000 年 1 月至 2019 年 5 月期间接受治疗的 345 名儿童骨肉瘤患者的居住地地理分布图。(B)居住在广东省的患者比例,占 345 例中的 293 例。(C)在广东省的患者中,四个主要城市中心的频率最高:广州(75 例)、深圳(37 例)、佛山(23 例)和东莞(16 例)。
为了探究儿童骨肉瘤病例的地理聚集性是否反映了潜在的环境暴露,作者分析了四个代表性城市——广州、深圳、佛山和东莞的关键城市发展指标,数据来源于广东省统计局、中国国家统计局和广东省汽车流通协会。所选指标包括国内生产总值(GDP)、总人口和私人汽车拥有量,这些指标综合反映了城市化程度、工业活动和人为排放。
广州在广东省所有城市中始终保持着最高的 GDP,其次是深圳、佛山和东莞,这表明经济和工业持续扩张( 图 2A)。这一趋势近年来持续存在,如纵向 GDP 数据所示,表明长期城市增长而非短暂的经济繁荣( 图 2B 和 2C)。这四个城市也是该省总人口最多的城市,反映了密集的居住环境,其中环境暴露的强度可能被放大( 图 2D)。同时,这些城市的私家车拥有量大幅提升,作为交通流量和车辆排放的指标,从而支持了接触废气污染物增加的推论( 图 2E)。
图 2. 广东省反映经济活动、人口密度和车辆排放的城镇化指标。(A-C) 广东省各市的国内生产总值(GDP)分布,突出了区域经济差距。(D) 广东省主要城市的人口分布。(E) 广东省各城市的私家车拥有量统计,反映了人为排放强度。
综合来看,这些发现表明广州、深圳、佛山和东莞具有持续的工业化、高人口密度和密集的车辆交通等特点,这些因素共同导致严重的环境负担,特别是在空气污染物如多环芳烃(PAHs)方面。鉴于 PAHs 是已知的燃烧衍生致癌物,尤其是在汽车尾气中含量丰富,作者假设在这些高密度城市环境中长期暴露于 PAHs 可能与儿童骨肉瘤的分子发病机制有关。
3.2. 识别与骨肉瘤中 PAHs 暴露相关的潜在毒性相关靶点
利用主要毒理学数据库和先前验证的文献,作者汇编了德国 GS 认证技术标准 ZEK 01.4–08 中识别出的 18 种主要多环芳烃(PAH)成分的化学结构( 图.) 3), 该研究强调这些化合物,因为它们在城市环境中高发,已证实对人类健康构成风险,且常被美国环境保护署(EPA)和国际癌症研究机构(IARC)等监管机构列为可能或确认的人类致癌物。基于这一筛选的化合物集,作者通过基于毒理学的靶点预测平台检索了与多环芳烃(PAH)暴露相关的 6105 个预测靶点蛋白,并从 DisGeNET 和 GeneCards 数据库中获取了 5137 个与骨肉瘤相关的基因。通过系统整合和冗余消除,作者确定了 1617 个交集靶点,这些靶点随后被视为潜在分子,可能将 PAH 诱导的生物学扰动与骨肉瘤发病机制中涉及的分子特征联系起来( 图 4A).
图 4. 识别和功能表征与小儿骨肉瘤中多环芳烃相关分子改变相关的候选靶点。(A) 显示 18 种多环芳烃化合物 6105 个预测靶点与 5137 个骨肉瘤相关基因交集的维恩图,产生 1617 个交集靶点,这些靶点被认为与多环芳烃相关的致癌信号传导相关。(B) 1617 个交集靶点的基因本体论(GO)富集分析,突出显示关键生物过程(骨化、腺体发育和药物反应)、细胞组分(焦点粘附、细胞-基底连接和含胶原蛋白的细胞外基质)和分子功能(DNA 结合转录因子结合、泛素蛋白连接酶结合和生长因子结合)。(C) KEGG 通路富集分析显示在 PI3K-Akt 信号通路、癌症中的蛋白聚糖和焦点粘附通路中显著富集。(D-F) 使用 Cytoscape 中的 CytoHubba 插件,基于度(D)、最大团中心性(MCC)(E)和最大邻域组分(MNC)算法识别前 20 个核心基因(D)、(E)和(F)。 (G) 韦恩图展示了由三种拓扑算法共同识别的 14 个相交核心靶点:ACTB、AKT1、ALB、CTNNB1、EGFR、FN1、GAPDH、HIF1A、IL1B、IL6、JUN、STAT3、TNF 和 TP53。(H) GO 生物学过程富集分析表明在细胞对氧化应激的反应、细胞对化学应激的反应以及上皮细胞增殖的正调控方面存在显著参与。(I) GO 分子功能富集分析突出了无序结构域特异性结合、RNA 聚合酶 II 特异性转录因子结合以及 DNA 结合转录因子活性。(J) GO 细胞组分富集分析显示了与转录调节复合物、RNA 聚合酶 II 转录调节复合物和转录抑制复合物的显著关联。
为阐明从 PAH 相关蛋白与骨肉瘤相关基因的交集处识别出的 1617 个交集靶标的生物学作用,使用 R 语言中的 clusterProfiler 软件进行了 Gene Ontology(GO)和 Kyoto Encyclopedia of Genes and Genomes(KEGG)通路富集分析。GO 富集分析显示,与生物学过程关联最显著的有骨化、腺体发育和药物反应,最富集的细胞组分有焦点粘附、细胞-基底连接和含胶原的细胞外基质,最突出的分子功能涉及 DNA 结合转录因子结合、泛素蛋白连接酶结合和生长因子结合( 图 4B),而 KEGG 通路分析表明,基于基因数量和调整显著性,最富集的三个通路是 PI3K-Akt 信号通路、癌症中的蛋白聚糖和焦点粘附( 图 4C), 总体表明环境中的多环芳烃暴露可能调节与骨肉瘤生物学相关的肿瘤相关信号级联反应和细胞外基质重塑过程,从而为外部致癌应激因素如何扰乱与肿瘤进展、粘附和骨骼组织发育相关的通路提供机制见解。
3.4. 蛋白质-蛋白质相互作用网络构建与核心基因鉴定
为识别可能将多环芳烃(PAH)暴露与骨肉瘤相关分子通路联系起来的中心介质,使用 STRING 数据库构建了蛋白质-蛋白质相互作用(PPI)网络,物种设置为 Homo sapiens,置信度评分阈值为 0.400,该网络包含 1545 个节点和 48,420 条边,随后使用 Cytoscape 中的 CytoHubba 插件应用三种广泛接受的排序算法进行拓扑分析,包括度中心性( 图 4D)、最大团中心性(MCC)( 图 4E)和最大邻近组分(MNC)( 图 4F),每种算法都生成了按网络中连接性或影响力排名的前 20 个候选基因列表,这三个排序基因集的交集产生了 14 个交集的核心基因,即 ACTB、AKT1、ALB、CTNNB1、EGFR、FN1、GAPDH、HIF1A、IL1B、IL6、JUN、STAT3、TNF 和 TP53,这些基因使用维恩图进行了可视化( 图 4G). 这些核心靶点编码的调节蛋白被广泛认为参与多种与癌症相关的过程,包括细胞增殖、凋亡、转移、转录活性和细胞内信号传导,它们在相互作用网络中的中心位置表明,它们可能是骨肉瘤背景下由多环芳烃(PAH)暴露引发的分子扰动的汇聚点。
为进一步表征这 14 个核心基因的功能相关性,使用 clusterProfiler 包进行了 GO 和 KEGG 富集分析,其中生物过程术语显著富集于细胞对氧化应激的反应、细胞对化学应激的反应以及上皮细胞增殖的正调控( 图 4H),分子功能术语主要与紊乱结构域特异性结合、RNA 聚合酶 II 特异性结合转录因子以及一般 DNA 结合转录因子活性( 图 4I)相关,富集的细胞组分术语包括转录调节复合体、RNA 聚合酶 II 转录调节复合体和转录抑制复合体( 图 4) 4J), 而 KEGG 分析揭示了排名靠前的通路,如癌症中的蛋白聚糖、HIF-1 信号通路和焦点粘附 ),共同表明这些核心靶点汇聚于氧化还原响应转录程序和致癌信号级联,这些级联可能作为环境多环芳烃暴露与儿童骨肉瘤中观察到的分子表型之间的机制中间体。
为评估网络毒理学分析在骨肉瘤中识别出的 14 个核心基因的表达谱及其临床相关性,对 TARGET-OS 队列的 RNA 测序数据和匹配的临床信息进行了系统分析。单变量 Cox 回归分析显示,ACTB 表达与总生存期(OS)显著相关( 图 5A),而 EGFR 和 JUN 表达与无进展生存期(PFS)相关( 图 5B)。具体而言,ACTB 表达降低与 OS 减少相关( 图 5C),EGFR 和 JUN 表达降低与 PFS 减少相关( 图 5D 和图 5E),表明这些基因表达的降低可能与骨肉瘤的不良临床结果相关。
图 5. 基于 TARGET 队列分析骨肉瘤核心基因的表达模式及预后意义。(A)单因素 Cox 回归分析显示总生存期(OS)与 ACTB 显著相关。(B)单因素 Cox 回归分析显示无病生存期(DFS)与 EGFR 和 JUN 表达显著相关。(C)Kaplan-Meier 生存分析显示 ACTB 表达低的患者 OS 降低。(D)Kaplan-Meier 生存分析显示 EGFR 表达低的患者 DFS 缩短。(E)Kaplan-Meier 生存分析显示 JUN 表达低的患者 DFS 减少。(F-H)随机森林模型的变量重要性度量突显 CTNNB1、JUN、ACTB、TP53 和 EGFR 是骨肉瘤转移预测的关键因素。(I)TARGET 数据集中核心基因表达水平的配对相关性分析显示 ACTB 与 CTNNB1 呈正相关,ACTB 与 TP53 呈负相关,EGFR 与 JUN 呈强正相关。
为进一步评估这些核心靶点的预后潜力,构建了随机森林机器学习模型,该模型识别出 CTNNB1、JUN、ACTB、TP53 和 EGFR 是影响骨肉瘤进展和转移的关键因素( 图 5、 图 5、 图 5)。TARGET 数据集内的相关性分析显示,ACTB 与 CTNNB1 表达呈显著正相关(P=0.017),ACTB 与 TP53 呈负相关(P=0.002),EGFR 与 JUN 呈正相关(P<0.001)( 图 5),这进一步支持了它们在致癌信号通路中的功能一致性。
为在独立数据集中验证这些发现,使用包含 103 例骨肉瘤样本和 15 例间充质干细胞来源的正常样本转录组数据的 GSE42352 数据集,检测了随机森林算法筛选出的五个基因的表达谱。结果表明,与正常对照组相比,骨肉瘤组织中 ACTB( 图 6A)、EGFR( 图 6B)、JUN( 图 6C)和 TP53( 图 6D)显著下调,而 CTNNB1 的表达在两组间无显著差异( 图 6E)。
图 6. 核心基因表达的外部验证和 PAH 化合物与关键靶蛋白的分子对接。 (A-E) GSE42352 数据集中骨肉瘤与正常样本间 ACTB、EGFR、JUN、TP53 和 CTNNB1 的差异表达分析。肿瘤样本中 ACTB、EGFR、JUN 和 TP53 表达显著降低,而 CTNNB1 无显著差异。 (F) 分子对接模拟显示 ACTB 与萘和苯并(a)芘之间存在强结合亲和力。 (G) EGFR 与萘和苯并(a)芘表现出强大的对接相互作用。 (H) JUN 与萘和苯并(a)芘均表现出良好结合,支持其作为 PAH 诱导的生物学扰动靶点的潜在作用。
这些分析共同突出了 ACTB、EGFR 和 JUN 作为与骨肉瘤预后强相关的候选基因,并提示它们在风险分层中作为生物标志物的潜在应用价值,以及作为理解环境因素对骨肉瘤影响的机制性切入点,尽管它们在多环芳烃介导的致癌过程中的直接参与需要进一步的实验验证。
为了进一步探索主要多环芳烃(PAH)成分与关键骨肉瘤相关蛋白的潜在相互作用,采用分子对接分析方法,对先前通过整合网络分析和生存相关性识别为候选基因的 ACTB、EGFR 和 JUN 进行了研究。在评估的 18 种代表性 PAH 化合物中,根据毒理学相互作用数据库的预测,萘和苯并[a]芘被确定能够靶向所有三种蛋白,因此被选为后续对接模拟的化合物。
对接结果显示,ACTB 与萘的亲和力为-5.7 kcal/mol,与苯并(a)芘的亲和力为-8.7 kcal/mol( 图 6),而 EGFR 与相同配体的预测亲和力分别为-6.6 kcal/mol 和-10.6 kcal/mol( 图 6)。JUN 表现出较弱但可察觉的相互作用,与萘的对接得分为-4.0 kcal/mol,与苯并(a)芘的对接得分为-6.0 kcal/mol( 图 6)。这些数值表明多环芳烃分子与这些靶标蛋白之间可能存在非共价相互作用,其中苯并(a)芘在三种配体中显示出最高的预测结合亲和力。
尽管这些计算机模拟结果需要实验验证,但观察到的对接图谱表明,选定的多环芳烃成分可能与与骨肉瘤病理生理学相关的蛋白质发生物理相互作用,支持它们在环境相关致癌信号传导中的潜在相关性。
3.7. 儿童骨肉瘤患者血清 PAHs-DNA 浓度
为评估多环芳烃(PAHs)环境暴露与儿童骨肉瘤临床结果之间的关系,从 41 名儿童患者中采集了外周血样本,并定量测定了血清 PAHs-DNA 加合物浓度。队列的详细人口统计学和临床特征总结。
PAHs-DNA 水平与居住地、性别、年龄、无进展生存期和总生存期进行了关联分析。居住在广东省四个最工业化城市——广州、深圳、佛山和东莞——的患者,其血清 PAHs-DNA 浓度显著高于其他地区居民(均值 443.9 pg/mL 与 146.4 pg/mL,P < 0.0001),这与这些地区城市化程度和车辆排放量较高的情况一致。此外,在随访结束时,去世的患者 PAHs-DNA 浓度高于存活患者(176.9 pg/mL 与 147.8 pg/mL,P = 0.0091)。相比之下,按性别、年龄(以 8 岁为界)或无进展生存期状态分层时,PAHs-DNA 浓度未显示出统计学显著差异(P > 0.05)。
这些发现表明,环境多环芳烃(PAH)负担与儿童骨肉瘤的不良生存结果之间可能存在关联。居住在高度城市化地区的儿童血清 PAHs-DNA 加合物浓度显著升高,且与总生存率相关,这强调了将环境暴露指标纳入儿童肿瘤学研究框架的重要性。尽管观察性设计无法得出确切的因果关系推断,但结果仍然强调了需要整合环境毒理学和临床肿瘤学的方法,以阐明易感人群中的暴露相关风险。
为清晰界定本研究在现有研究领域的独特贡献,特提供比较性总结,该比较凸显了当前研究如何解决一个关键且此前未涉足的研究空白。尽管先前研究已采用相似的计算策略来探究其他有毒物质(如砷和镉)在常见成人恶性肿瘤中的致癌机制,且已有数篇综述确立了多环芳烃的普遍致癌性,但此前尚无研究系统探讨特定分子介质如何将多环芳烃暴露与儿童骨肉瘤(一种罕见但侵袭性的儿童恶性肿瘤)联系起来。通过超越普遍关联,本研究识别出一个以 ACTB、EGFR 和 JUN 为核心的聚焦分子网络,从而为理解燃烧源环境污染物如何在生命早期与肿瘤相关信号通路相互作用提供了机制性见解。
这些发现进一步强化了严格空气质量法规的公共卫生相关性,特别是在以车辆排放量高为特征的城区。这项工作的意义超越了分子病理学,提供了支持政策驱动的环境干预以降低易感儿童群体长期疾病风险的可行证据。
总结
本研究揭示了一种新的分子关联,即多环芳烃暴露与儿童骨肉瘤之间的关系,并确定 ACTB、EGFR 和 JUN 为与环境响应相关的基因,具有潜在的诊断和预后意义。这些发现加深了对环境相关肿瘤发生机制的理解,为制定预防和治疗策略提供了理论基础。鉴于多环芳烃暴露与不良生存结果之间的相关性,这些结果强调了实施环境控制政策的紧迫性,特别是在城市地区,以保护易感的儿童群体免受长期致癌风险 。