解析生物系统的变化需要分析大量的多组学数据。虽然已有用户友好型工具可用于单组学分析,但整合多组学仍需要生物信息学专业知识,这限制了更广泛科学界的使用。2025年1月BMC Bioinformatics发表了一种同时包含单组学分析和多组学整合的生物信息学工具——BiomiX,其图形用户界面可确保用户友好性和灵活性,并处理转录组学、代谢组学、甲基化、未标记数据及其整合。

BiomiX是什么?

BiomiX实现了对从两个队列获得的多组学数据的高效和综合分析。其整合了多种组学数据,使用DESeq2/Limma转录组学软件包,并通过Wilcoxon检验和FDR校正来量化代谢组学峰值差异。液相色谱-质谱非靶向代谢组学注释还可利用CEU Mass Mediator数据库中的质荷比和 TidyMass软件包中的碎片谱进行支持。甲基化分析使用ChAMP R软件包进行。最后,多组学因子分析(MOFA)整合确定了组学数据之间的共享变异来源。BiomiX 还能生成统计数据、报告图表,并集成 EnrichR 和 GSEA,用于生物过程探索和基于用户定义panels的亚型分析。此外,BiomiX 对 MOFA 模型进行了微调,MOFA判别因子还与临床数据相关联,并探索了最主要的贡献途径,所有这些都是为了指导用户进行因子解读。

BiomiX 流程和脚本模式

BiomiX的一般结构及其脚本。上半部分描述了输入表和用于分析单个组学的三个主要脚本,包括输出结果和变换矩阵。然后,这些矩阵被用作MOFA集成的输入,用户可以调整或任意选择因子的总数。在八种情况下,会执行一个不同的脚本。底部表示判别因子的定义及其Top特征的提取。这些判别因素与临床数据相关,以使用皮尔逊相关系数(A)识别显著相关性,而Top特征通过通路分析(B)进行分析,并通过文本挖掘/PubMed研究方法进行探索(C)。

BiomiX的应用案例

与其他工具的比较

BiomiX是第一个设计用于分析单个组学并使用MOFA对其进行集成的工具。之所以选择这种中间整合方法,是因为与其他同类方法相比,它易于解释,计算速度更快。此外,MOFA 还能处理 omics 中的缺失数据以及样本中没有整个 omics 块的情况,因此非常适合异构数据集,反映了真实世界数据的复杂性。这些特点使 MOFA 比 DIABLO 和 iClusterBayes 等类似方法更具适应性,因为后者无法处理缺失的 omics 或无估算的数据。由于 MOFA 是一种无监督集成方法,它不会训练模型来优化组间差异,而是公正地探索它们。这种方法可供非生物信息学家使用,还可以提供一种其他平台上已经存在的新型集成方法,例如 MixOmics。

BiomiX 的关键创新在于自动调整 MOFA 因子中的因子数量,并协助用户识别和注释判别 MOFA 因子。与专门为整合单组学或多组学而设计的生物信息学工具相比,BiomiX 的功能弥补了多组学分析和整合工具的不足,凸显了其重要性。

BiomiX与单组学和多组学集成工具的比较

应用案例

使用BiomiX对结核病患者的全血转录组学和血浆代谢组学进行分析:与对照相比,BiomiX 的转录组学分析显示与文献原文相同的生物途径,这些途径在 Gene Ontology 和 Reactome 数据库中都是一致的。此外,为了评估患者免疫反应的差异,BiomiX 还能根据包含 26 个 IFN 诱导基因的panel对患者进行分组。三因子 MOFA 模型分别解释了 5.05% 和 45.77% 的代谢组学和转录组学总变异。

 PTB 的转录组学和代谢组学分析:只有因子 1 显著区分了这两种情况 (p.adj = 0.0011, sd = 0.08) (上图 A、B),分别捕获了 2.23% 和 33.22% 的代谢组学和转录组学总变异,但其身份需要识别。

BiomiX:一种用户友好型生物信息学工具,用于多组学数据的自动化分析和整合

具有突变和未突变免疫球蛋白重变 (IGHV) 基因的 CLL 患者的转录组学和甲基化差异分析:转录组学、甲基化热图和火山图成功地突出了文献原文中提到的与CLL差异相关的基因(KANK2、DGKH、MYLK、PPP1R9A、SEPTIN10、SOWAHC、PLD1和LPL)。此外,通路分析还发现了甲基组学中增殖(GO:0090267)和VDJ重组(GO:0033152, GO:0033151)通路的上调。MOFA 实施确定了具有 8、9 和 10 个因子的模型在识别两种情况之间的差异方面表现最佳。

 使用BiomiX对慢性淋巴细胞白血病患者的全血转录组学和血浆代谢组学进行分析:十因子模型表现最佳,确定了五个因子(因子 1、3、4、5 和 6)来区分突变和未突变的 IGHV CLL(上图 A)。因子 1 是其中最具区分性的,对其的分析(上图 B)确定了与 DNA 损伤、衰老和癌症相关的文章。

BiomiX 旨在帮助没有生物信息学背景的生物学家、医生和科学家。BiomiX 并不是一个明确的解决方案;它是首次尝试将金标准单组学流程与使用 MOFA 进行调整和可访问的集成相结合到生物信息学中。BiomiX 保证了组学之间共同变异源的高度可解释性,为用户提供了组学和多组学整合的单一结果,从其在单细胞数据上的应用来看,这要归功于 MOFA 方法。它可以全面概述生物系统中发生的变化,无论是在疾病、治疗还是生理条件下,从而增强了所涉及的生物途径和过程的可解释性。除了提高 MOFA 因子的可解释性和调整模型中的因子总数外,BiomiX 还通过 Shiny 界面简化了交互式数据可视化,使用户能够跟踪数据转换前后的变化,以及删除异常值和高度可变的特征。单独的界面处理缺失值,为有问题的样本或变量提供各种插补选项和控制。通过灵活的参数设置,用户可以完全控制他们的分析。开发团队强烈建议用户遵循指南并在使用 BiomiX 之前仔细检查数据集。BiomiX 还提供输出格式,可复制并粘贴到专门的用户友好的广泛网站或程序中,例如 GSEA、EnrichR 和 Metaboanalyst。

然而,BiomiX 有局限性。虽然它可以同时分析多个组,但它的组学分析类型有限。因此,仍有许多工作要做,以实现基于领域需求的功能,并包括更多的集成方法和组学数据,例如来自不同技术的蛋白质组学和基因组学数据。

BiomiX适用于所有操作系统,如Windows、Linux和Mac。下载和教程分别在以下BiomiX Github页面上提供:

👉 https://github.com/IxI-97/BiomiX

👉 https://ixi-97./

//

建议对技术细节感兴趣的小伙伴请参考文献原文~

对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出,互相交流学习!

更多优质内容请点击下方名片,关注“国家基因库大数据平台”和“深圳国家基因库”公众号。

参考文献:

Iperi, C., Fernández-Ochoa, Á., Barturen, G. et al. BiomiX, a user-friendly bioinformatic tool for democratized analysis and integration of multiomics data. BMC Bioinformatics 26, 8 (2025). https:///10.1186/s12859-024-06022-y