⭐星标观科研 更新不掉队⭐
Fig. 1
蛋白疾病关联分析
方法:针对406种现患疾病,采用Logistic回归进行横断面分析;针对660种新发疾病,采用cox回归模型进行时序性分析,明确蛋白和疾病的关联(Fig1.B-C)。展示每种疾病最相关的top3蛋白(Fig1.D)。比较现患疾病和新发疾病的蛋白谱差异,寻找与疾病进展相关的蛋白(Fig1.E-F)。将研究人群按照性别和年龄分层,使用回归模型进行亚组分析(Fig1.G-H)。
结果:识别出27种蛋白在现患疾病和新发疾病中呈现相反的关联方向,如DSG2,ART3,KLB在现患二型糖尿病中水平升高,是危险因素,但在新发二型糖尿病中却是保护因素,说明蛋白质在疾病不同阶段可能发挥不同的作用。
Fig. 2
疾病-性状之间多效性分析
方法:针对986种健康相关性状,采用不同的回归模型分析:线性回归(连续性变量),logistics回归(分类变量),比例优势logistic回归(有序分类性状)。(Fig 2.A-C)。分析疾病和相关性状之间的共享蛋白(Fig 2.D-H)。
结果: 发现许多蛋白质具有多效性,即一个蛋白质与多种表型相关。例如,GDF15与428个性状相关,主要是脂质代谢物,表明它在代谢和循环系统疾病的发病机制中具有广泛作用,有助于发现评估系统健康状态的通用标记物。
Fig. 3
疾病相关蛋白的生物学功能
方法:针对每种疾病的关联蛋白(或P值最小的前30种蛋白),进行Reactome通路富集分析 和 GO生物学过程(BP)富集分析。
结果:与疾病相关的蛋白质最常富集于免疫系统相关通路,尤其是在传染性疾病、血液系统疾病、循环系统疾病和呼吸系统疾病中(Fig 3.A)。比较阿尔茨海默病(AD)和血管性痴呆(VaD)发现,它们共享了与神经系统相关的通路(如突触成熟和神经元再生)。但AD特异性通路主要与脂质代谢相关(如血脑屏障脂质运输的调控)(Fig 3.B)
Fig. 4
40种疾病聚类的生物学特征
方法:基于所有血浆蛋白与660种新发疾病的HR值进行层次聚类分析,660种疾病被划分为40个不同生物学特征的聚类。为了揭示疾病聚类的生物学特征,进行基因富集评分分析(GSEA)。
结论:传统的疾病分类通常依赖于相似的临床特征,忽略了共享的分子病因,基于蛋白-疾病的关联强度,将具有共同生物学特性的疾病聚类在一起,重新评估疾病边界和亚型。这些共享蛋白也解释了患者看似不相干的症状或疾病同时发生的原因。

Fig. 5
蛋白对疾病预测和诊断的贡献
方法:使用lightGBM机器学习模型,使用前30个最重要蛋白构建诊断与预测模型,通过AUC曲线下面积比较蛋白质谱、人口学特征和整合模型的性能。
结果:展现了蛋白质模型在疾病诊断和预测中的良好性能(Fig 5.A-B)。GDF15在预测(在200种疾病中排名第一)和诊断(在40种疾病中排名第一)中均被评为最重要的蛋白质(Fig 5.C-D)。
Fig. 6
潜在的病因蛋白和功能蛋白
方法:使用双向两样本孟德尔随机化(MR)分析,使用pQTL(蛋白质定量性状基因座)作为遗传工具,分析蛋白与疾病的因果关系
结果:确定了474个潜在病因蛋白(Fig 6.A-D),如GDF15与几种自身免疫性疾病存在因果关联。确定4,014个由疾病引起蛋白质水平变化的功能蛋白(Fig 6.E-H),如PLAUR的血浆水平升高与肝纤维化和肝硬化等肝脏疾病相关,表明它是疾病进展的结果。
Fig. 7
药物靶点验证、再利用和识别
评估疾病相关蛋白质编码基因与可成药基因组(Druggable Genome)的重叠富集情况(Fig 7.A)。将病因蛋白与DrugBank和TTD进行比对,以识别药物再利用机会(Fig 7.B)。使用Agora AD Knowledge Portal对通过潜在靶点的安全性进行评估(分为1-5级),确定了26个具有良好安全性的药物靶点。
药物靶点数据库:
1)DrugBank:已批准药物靶点或临床试验靶点的数据库(https://go./)
2)Therapeutic Target Database (TTD):已批准药物靶点或临床试验靶点数据库(https:///ttd/)
3)Agora:评估潜在靶点安全性的数据库(https://agora./)
蛋白质组应用文献回顾
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|