导语

结果:
研究对象的临床特征
该研究包括 781 名受试者,分为 CAD 组 (n = 147)、高危组 (n = 363) 和对照组 (n = 271)(表)。  1 CAD 组的中位 SYNTAX 评分为 27.0 (IQR: 22.0–43.0),这是病变复杂性和疾病严重程度的定量血管造影测量 [ 27 ],男性参与者比例较高。与对照组相比,CAD 组和高危组均表现出多项升高的临床标志物(年龄、体重、BMI、腰围、收缩压、舒张压)。糖尿病和 CKD 等合并症在 CAD 组和高危组中更为普遍。CAD 组的血脂谱(总胆固醇、高密度脂蛋白、低密度脂蛋白 (LDL) 显着低于其他两组,这可能是由于他汀类药物的使用增加。与对照组相比,CAD 组和高危组的 TG、肌酐、脂联素和瘦素水平升高。值得注意的是,CAD 组的 WBC 和高敏 C 反应蛋白值高于其他两个队列。
根据受试者的代谢组数据对受试者进行聚类分析
使用广泛的数据集,机器学习算法已经能够通过利用距离指标来量化不同数据点之间的差异来证明识别模式的有效性 [28 ]。在这项研究中,特意选择了欧几里得距离度量,以减轻 K 均值算法 [ 29 ] 中的失真。使用肘部方法,该方法表明代谢组学数据的最佳范围为 3-5 个聚类,作者选择了 k = 5 作为两个数据集的最合适值(图 S2 A)。结果表明,通过采用指定为 k = 5 亚型的欧几里得距离度量,可以始终获得更高的轮廓分数和连通性度量,这反过来又给出了归一化的 Jaccard 相似度,对于两种各自方法确定的每个聚类,超过 0.80。
所有研究对象都可以分为五个代谢簇,分别表示为簇 1 到簇 5(图 12 A 和图 S2 B)。根据 BMI、年龄和性别分布等关键特征(表 S6 ),第 4 类成为高危人群,BMI 最高(28.1),男性占主导地位的性别分布(男性 64.6%),CAD 发病率高(40%)。相比之下,代表最健康群体的第 2 组的 BMI 正常 (22.9),平均年龄为 59.7,并显示出女性优势(女性 63.3%)。图 S5 E 显示了描述这些特征在集群中分布的箱线图。值得注意的是,在五个集群中,第 4 组受试者的糖尿病、CKD 和各种异常临床指标(如体重和空腹血糖)的发病率最高。相反,第 2 组的这些合并症的患病率最低,TG 水平最低。有趣的是,第 2 组的总胆固醇和高密度脂蛋白水平最高,而第 4 组的总胆固醇和高密度脂蛋白水平在五个集群中最低。

11+分型+预测模型,用多组学搭配机器学习构建预测模型,这篇纯生信也太有意思了!
不同代谢组学簇中受试者的特征及其遗传学。A、对 143 种代谢物的数据集进行聚类分析。红色表示代谢物丰度与对照相比上调,蓝色表示下调。分数图中的每个原始数据都代表每个单独的主题。受试者的排列从上到下排列,从对照组到高危组再到 CAD 组。在每组中,女性受试者被安排在男性受试者之上。在每种性别中,年轻的受试者都被安排在年长的受试者之上。热图中的颜色反映了血浆代谢物丰度(均值居中并除以每个变量的范围)。B,使用正交偏最小二乘判别分析(OPLS-DA)图比较 143 种目标代谢物,该图表示血浆代谢物从簇 2 和 4 的分离。选择 143 个变量和 780 个观测值,通过交叉验证规则构建该 OPLS-DA 评分图。该模型捕获的平方和 (R2) 为 0.777,交叉验证 (Q2) 为 0.705。C、对照组、高危组和 CAD 组全基因组 SNP 分析的曼哈顿图。271 名对照组、363 名高危组和 147 名 CAD 受试者的单 SNP 关联分析的 p 值负 log10 图;这些按染色体位置沿每条染色体的 X 轴排序。D,将 195 个显著的 SNP(p 值< 0.05)根据二倍体基因型分为纯合参考(蓝色)、纯合 SNP(红色)和杂合 SNP(白色)。 SNP 根据欧几里得距离通过 K 均值聚类分为 5 个聚类。分数图中的每个原始值代表每个单独的受试者。受试者的排列方式从上到下,从对照组到高风险组再到 CAD 组。在每组中,女性受试者被安排在男性受试者之上。对于每种性别,年轻的受试者被放置在年长的受试者之上
表S7 概述了 10 种排名靠前的代谢物,这些代谢物区分了通过 ML 预测获得的 CAD、高风险组和对照组。其中九种是甘油磷脂,而一种是鞘磷脂。分数图由正交偏最小二乘判别分析(OPLS-DA,图  2 B)生成,生动地显示了源自簇 2 和 4 的 143 种血浆代谢物中发现的不同模式。这些簇在代谢特征上表现出显着差异。采用 K 均值聚类分析,出现了两种不同的代谢组学模式,其中一种代表最健康的受试者组(代谢簇 4),而另一种代表最不健康的受试者组(代谢簇 2)。该分析强调了本研究中受试者代谢特征中存在的极端变化。
根据受试者的 SNP 数据对受试者进行聚类分析
为了研究血浆代谢组各种不同模式中的潜在遗传关联,作者使用公理全基因组 TWB 2.0 阵列进行了 GWAS。只有 195 个 SNP(图 S1 A)符合作者严格的标准,在 370,394 个 SNP 的初始池中,调整后的 p 值低于 1 × 10− 7,比值比 > 1 或 < 0.5。这些值是使用 χ² 检验和 SAIGE 方法计算的,并使用 Bonferroni 校正进一步调整。随后,将这些选定的 SNP 用于相关性分析,重点关注 CAD 组与对照组的比较(图 S1 B 和 S1 C)。如 GWAS 的曼哈顿图所示(图 C  2 ),没有一个 SNP 达到 2.6 × 10− 4(0.05/195)的全基因组显着性阈值。表 S8 提供了这些 SNP 在对照组、高风险组和 CAD 组的基因型频率。
作者的检查集中在两个不同的染色体区域,其中 p 值低于 1.0 × 10− 2。表 S9 列出了 ML 预测的最有效地区分 CAD 组和对照组的 10 个排名靠前的 SNP。与 χ² 测试相比,使用 SAIGE 显示出更高的统计学意义,例如溶血磷脂酰胆碱酰基转移酶 1 (LPCAT1) 基因中的 SNP。表 S9 中两种方法的 p 值比较突出了每种方法在检测与 CAD 关联方面的有效性。此外,将这些 SNP 的基因型频率与从台湾生物样本库  获得的数据进行比较,以提供额外的背景和验证。该检查鉴定了 5 个基因,分别是 LPCAT1、含有 GRB2 like 2 的 SH3 结构域、亲内素 A1 (SH3GL2)、囊泡相关膜蛋白 8 (VAMP8)、Tubby 相关蛋白 4 (TULP4) 和 ATP 酶阳离子转运 13A2 (ATP13A2);然后从排名靠前的 SNP 列表中提取这些基因。为了进一步追查显着影响对照组、高危组和 CAD 组代谢组模式差异的遗传因素,作者使用 K 均值聚类将 SNP 无偏无倚地分为五个不同的组(聚类 A-E,图 D  2 和图 S3 )。使用肘部法确定适当的聚类数量,并根据其与代谢组学和 SNP 数据聚类的一致性选择 k = 5(图 S2 A)。对这些集群的 SNP 模式的比较分析显示了显着差异,特别是在 BMI、年龄和性别分布等临床特征方面(表)。 S10 图 S5 F 提供了描述 SNP 簇中这些特征的箱线图。例如,B 组表现出最高的 CAD 风险 (47.4%),BMI 为 26.7,平均年龄较大(63.6 岁)。另一方面,E 组的 CAD 风险较低 (10.4%),BMI 为 25.2,平均年龄为 61.9 岁。对这些聚类之间 SNP 模式的比较分析显示了统计学上的显着差异。然而,当作者评估这些遗传簇中的 SBP、DBP 和 TG 等临床特征时,观察到的差异并不像代谢组学簇中明显的那样明显。此外,SNP 集群之间降脂和降压药物处方的差异并不像代谢物集群中观察到的那样明显。这一观察结果表明,SNP 聚类可能会减轻药物对临床表现的影响。此外,作者分析了先前报道的 CAD 相关 SNP 的基因型频率,这些 SNP 能够通过 Axiom™ 全基因组 TWB 2.0 阵列进行识别。然而,通过比例检验进行的统计分析表明,先前报告的 SNP 的风险等位基因均未超过对照组和 CAD 组之间统计显着性的阈值 (p < 0.05)。
过滤代谢组学和遗传聚类分析
随后的分析显示,代谢组学簇 2 与遗传簇 D 和 E 之间存在显着关联,而代谢组学簇 4 主要与遗传簇 B 和 C 相关(图S5 )。基于这种关联,代谢组学簇 2 中与遗传簇 D/E 相关的参与者被分为“亚型 I”,而代谢组学簇 4 中与遗传簇 B/C 相关的参与者被归为“亚型 II”(图 A  3 )。应该注意的是,这两种亚型在临床特征和合并症方面表现出显着差异。与 II 亚型相比,I 亚型的总胆固醇、高密度脂蛋白和低密度脂蛋白水平明显更高。此外,后一种亚型在高危和 CAD 群体中表现出更高的代表性。当比较这两种亚型时,观察到特定代谢组学标志物(特别是甘油磷脂)和遗传标志物(特别是 LPCAT1)的明显变异(图 D  2 和 3 A,以及图 S6 )。为了验证这些关联,作者进行了卡方检验并比较了每个代谢组学簇中观察到的 SNP 分布。SNP 簇 D 和 E 在代谢组学簇 2 中显着富集 (p = 2.5 × 10⁻¹⁹),而 SNP 簇 B 和 C 在代谢组学簇 4 中代表性过高 (p = 1.13 × 10⁻¹³)。这些结果证实聚类模式具有统计学意义,并支持基于作者发现基因组和代谢组学数据集之间存在联系的遗传代谢关联的假设(图 S5 B)。 此外,对对照组、高风险组和 CAD 组的五个 LPCAT1 SNP(rs1032752、rs1032751、rs10475026、rs9799949 和 rs36993)的基因型频率的分析显示,方差分析存在显着差异 (p = 0.0365)。值得注意的是,比例检验显示对照组和 CAD 组之间这些 LPCAT1 SNP 存在显着差异 (p = 0.0295),这表明存在潜在的连锁不平衡以及可能的单倍型连锁;这可能与 CAD 的遗传易感性有关(图 S7 )。

通过代谢组学和 SNP 聚类分析过滤的受试者的比较。A,LPCAT1 的双等位基因 SNP 表现为纯合等位基因 2(SNP,红色)、纯合等位基因 1(WT,蓝色)和杂合 SNP(白色)。给出了根据 SNP 对齐的每对受试者亚型的靶向代谢组学丰度(均值居中并除以每个变量的范围)检测到的甘油磷脂模式。B,检测到两种特定的 LPCAT1 SNP 单倍型:rs36993(A > G)、rs9799949(C > T)、rs10475026(A > C)、rs1032751(T > C)和 rs1032752(G > A)。C,聚类 2 和 4 中受试者血浆代谢物的正交偏最小二乘判别分析 (OPLS-DA) 评分图。单倍型 2 或单倍型 3 的受试者具有不同的代谢组学模式。总共选择了 143 个变量和 151 个观察值来构建该 OPLS-DA 评分图,通过交叉验证规则。该模型捕获的平方和 (R2) 为 0.814,交叉验证 (Q2) 为 0.755。D,饼图指示受试者组的频率,通过代谢组学和 SNP 聚类分析过滤 LPCAT1 的不同单倍型。LPCAT1 单倍型 3 在高危组和 CAD 组的受试者比例显着增加。单倍型 3 的男性和女性受试者的 PCae/LysoPC (E) 比率和 PCae 水平(F) 均显着降低。此外,单倍型 3 受试者的总胆固醇水平 (G)、 高密度脂蛋白水平 (H) 和低密度脂蛋白水平 (I) 均低于单倍型 2。 单倍型 3 受试者的血浆甘油三酯水平 (J) 显著高于其他单倍型。量化数据以平均值±标准差表示,并通过单因素方差分析与 Bonferroni 多重比较检验进行分析。*p < 0.05;**p < 0.005
进一步研究揭示了与不同代谢组团簇相关的两种不同单倍型的 LPCAT1。单倍型 2 由纯合参考的特定组合定义,即 rs1032752、rs1032751、rs10475026、rs9799949 以及纯合 SNP,rs36993。相反,单倍型 3 的特征是纯合 SNP rs1032752、rs1032751、rs10475026、rs9799949,与纯合 SNP rs36993 配对。所有其他组合均被归类为单倍型 1(野生型,WT;无花果。3 使用 OPLS-DA 检查 LPCAT1 单倍型对血浆代谢组学模式的影响(图 C  3 )表明,具有单倍型 2 或单倍型 3 的受试者具有不同的代谢组学模式。这些发现表明,特定的 LPCAT1 单倍型对受试者的血浆代谢组学表达有显著影响。
LPCAT1 单倍型影响磷脂酰胆碱谱
LPCAT1 通过提高饱和磷脂酰胆碱(PC)水平来影响疾病进展[30 ]。值得注意的是,在高危组(42.86%)和 CAD(52.38%)中发现 LPCAT1 单倍型 3 个体比例较高,而 LPCAT1 单倍型 2 个体与高危组(20.45%)和 CAD 组(4.55%)的相关性较低(图 D  3 )。LPCAT1 单倍型 1(WT)均匀分布在三组中。当进行性别特异性分析时,与单倍型 3 相比,具有 LPCAT1 单倍型 2 的男性参与者表现出增加的 PCae/LysoPC 比率(图  3 E)、更高的 PCae 水平(图  3 F)、更高的总胆固醇水平(图  3 G)、更高的 HDL 水平(图  3 H)和更低的 TG 水平(图  3 J)。相反,与单倍型 2 相比,具有 LPCAT1 单倍型 3 的女性表现出较低的 PCae 水平(图 F  3 )、较低的总胆固醇水平(图  3 G)、较低的 HDL 水平(图  3 H)和较低的 LDL 水平(图  3 I)水平。这些发现表明,各种血脂谱存在性别特异性差异,这些差异与组内的 LPCAT1 单倍型有关。
ML 辅助识别整个队列中的 CAD 危险因素
作者扩展了作者的研究,以探索 LPCAT1 单倍型在影响整个队列的表型和代谢组学模式方面的潜在作用。这使用集成的机器学习辅助分析来识别对照组、高风险组和 CAD 组之间的特定风险因素;从而利用前面提到的数据 [ 20 ]。这项综合研究包括三个主要部分:(1)使用 Axiom 全基因组 TWB 2.0 阵列进行 GWAS;(2)选择代谢组学和临床特征;(3) 推导和验证预测模型。在各种机器学习模型中,随机森林模型在 AUC 和准确率方面表现出优异的性能(图 S4 )。
图4 A 利用图  4 B 中概述的 16 个排名靠前的可解释特征,说明了整个队列中 ML 辅助的 CAD 预测性能;这实现了 0.805 的准确率和 0.917 的 AUC。有趣的是,携带 LPCAT1 单倍型 1(H-1)的个体在对照组、高危组和 CAD 组中的分布相似(图 C  4 )。然而,在三组中可以观察到携带 LPCAT1 单倍型 3 (H-3) 的参与者百分比显着增加,这从对照组的 13.33% 上升到高危组的 19.28%,然后上升到 CAD 组的 27.21%(χ2 of p = 0.02)。除了 LPCAT1 单倍型外,还确定了其他 15 个危险因素。肌氨酸、肌酐、天冬氨酸、异亮氨酸、脯氨酸、缬酰肉碱、溶菌 PCa C26:1 水平升高以及男性均与 CAD 组呈正相关。相反,较低水平的血清素、PCaa C40:2、PCae C34:3、PCae C40:2、PCae C42:3 和 SM(OH) C22:1 与 CAD 组有关(图  4 D 和 P)。在区分高危组和 CAD 组时,ML 辅助预测模型在区分这两组时达到了 0.740 的准确率和 0.880 的 AUC(表)。 S13 尽管与使用包括对照、高风险和 CAD 在内的完整数据集预测 CAD 相比,性能略有下降(图  4 A),但衡量敏感性和特异性的 AUC 仍保持在 0.88 的高分。这些发现强调,CAD 与各种代谢物以及队列内的各种临床因素之间存在明显的关联。

ML 辅助预测冠状动脉疾病 (CAD)。基于临床特征、代谢组和全基因组 SNP 的 ML 辅助转组学预测模型用于识别整个队列中的 CAD 患者。A,用于预测 CAD 的受试者工作特征 (ROC) 曲线。B,与 CAD 患者相关特征的调整比值比。采用反向逐步选择法对风险进行估计。C、高危组 LPCAT1 单倍型-3 的频率增加,CAD 组进一步升高。D-I,与 CAD 受试者相关的各种临床危险因素、氨基酸和生物胺的失调水平,包括肌氨酸 (D)、 肌酐 (E)、 天冬氨酸 (F)、 异亮氨酸 (G)、 脯氨酸 (H) 和血清素 (I)。J-P,脂质组学模式,戊酰肉碱(J)和溶菌 PCa26:1(K)升高,其他脂质减少,包括 PCaa C40:2(L)、PCae C34:3(M)、PCae C40:2(N)、PCae C42:3(O)和 SM(OH)C22:1(P);这些与从对照组到高危组再到 CAD 组的进展有关。量化数据以平均值±标准差表示,并通过单因素方差分析与 Bonferroni 多重比较检验进行分析。AUC,曲线下面积。*p < 0.05;**p < 0.005

总结

作者的研究结果强调了将机器学习模型与传统方法相结合以发现新生物学机制的潜力。当作者将作者的方法与各种现有风险评估工具(表 S17 )进行比较以识别 CAD 高风险个体时,作者的预测模型显示出前景。作者的方法似乎优于许多基于人口统计学、基于血液生化和基于图像的评估方法;然而,有必要进一步验证。了解与 CAD 相关的关键 SNP 及其与与 CAD 相关的代谢物的相互作用将有助于揭示形成复杂疾病 CAD 的潜在遗传易感性和代谢变化。最终,创建能够区分 CAD 患者和高危个体的多组学预测模型将为制定个性化的 CAD 预防医疗策略提供途径