综述论文

● 期刊:Genomics, Proteomics & Bioinformatics (IF5year:9 )

● DOI:https:///10.1093/gpbjnl/qzaf075 

●原文链接: https://academic./gpb/advance-article/doi/10.1093/gpbjnl/qzaf075/8239969 

● 第一作者:Tianyuan Zhang (张天缘) 1 2

● 通讯作者:Yong-Xin Liu 1 (刘永鑫) & Lulu Yang (杨路路) 2

● 发表日期:Mian Jiang (蒋冕), Hanzhou Li (李汉洲)2, Yunyun Gao (高云云)1, Salsabeel Yousuf1, Kaimin Yu (余凯敏)2, Xinxin Yi (易欣欣)2, Jun Wang (王俊)2

● 主要单位:

1中国农业科学院(深圳)农业基因组研究所Agricultural Genomics Institute at Shenzhen, Chinese Academy of Agricultural Sciences, Shenzhen, China

2武汉贝纳科技有限公司Wuhan Benagen Technology Co., Ltd, Wuhan, China

摘要Abstract

近年来,宏基因组鸟枪测序领域取得了显著突破,这主要归功于下一代测序技术的快速发展,尤其是Nanopore和PacBio等长读长测序平台的创新。这些技术无需纯培养即可直接解析环境样本中微生物群落的组成、功能和动态,凭借更长的读长和对复杂数据的处理能力,显著提升了宏基因组数据的组装、注释和分析效率。本综述全面梳理了长读长宏基因组学的发展历程,回顾了关键性的技术进步和重要里程碑事件。同时,我们深入探讨了长读长技术在多个研究领域的广泛应用,重点分析其在解析复杂微生物生态系统中的重要作用。最后,我们系统总结了用于提升宏基因组数据处理效率与准确性的关键计算资源,包括软件、数据库和工具包;并提供了一份实用指南,帮助研究者安装和使用相关软(https://github.com/zhangtianyuan666/LongMetagenome)。本综述为宏基因组学研究者探索微生物世界提供了重要指引,通过整合资源和创新思路,进一步推动了复杂微生物生态系统的深入研究与发现。

长读长宏基因组学的发展历史(Overview of the history of long-read metagenomics)

自然界中的大多数微生物难以分离和培养。Handelsman等人在1998年首次提出了“宏基因组”的概念,这一概念涵盖了可培养和不可培养微生物的遗传物质。过去二十年来,宏基因组技术作为研究微生物群落的重要工具取得了迅猛发展,因为它无需依赖传统的培养过程。2005年,首台高通量测序仪的问世开启了宏基因组研究的新篇章。这些测序仪能够同时生成大量序列数据,为科学家探索土壤、水体、人类肠道及其他环境中微生物的遗传多样性提供了强大工具。这一技术突破揭示了许多全新的微生物物种、基因和代谢途径。随着技术的不断进步,宏基因组学研究的应用领域不断扩大(图1)。

尽管短读长鸟枪法测序因其快速和易用性被广泛采用,但它在组装完整基因组、检测结构变异和处理重复序列方面存在局限性。此外,短读长技术无法覆盖较长的重复序列和同源区域,这限制了对多态性位点的分辨力以及对近缘物种或菌株的鉴别能力。因此,使用短读长方法分析复杂的微生物群落可能无法准确区分物种。

长读长测序技术(如Oxford Nanopore Technology (ONT) 和Pacific Biosciences (PacBio))通过生成超长DNA序列,彻底改变了基因组学研究。2011年,PacBio推出了RS测序仪,能够生成超过10 kb的读长。然而,早期的PacBio测序技术存在较高的错误率,约为11%-15%。尽管如此,直到2014年,PacBio技术才首次用于奶牛粪便中抗性基因的宏基因组研究。同年,ONT推出了MinION测序仪,其早期精确度约为64%。2015年,Greninger等人首次利用MinION纳米孔测序技术实现实时无偏的宏基因组检测,以识别临床样本中的病毒感染。这一研究标志着长读长宏基因组学时代的正式到来。与短读长方法相比,长读长技术能够生成数千到数万个碱基的连续读长。这一能力对宏基因组学研究产生了深远影响,使科学家能够更加全面地研究环境样本中的微生物群落,并更准确地解析这些复杂生态系统的组成和功能。

测序技术的进步显著降低了PacBio和ONT平台的错误率。PacBio推出了Sequel测序仪,利用循环一致性测序(Circular Consensus Sequencing, CCS)模式生成高保真(HiFi)读长,精确度达到Q20或更高。2019年,ONT推出了便携式Flongle测序仪和高通量PromethION测序仪,大大扩展了长读长宏基因组的应用。Flongle和MinION支持在野外环境(甚至包括地球空间站)进行实时测序和分析。与此同时,R9.4.1流动槽的化学改进将平均精确度提升至92%。此外,第一个长读长宏基因组组装软件“metaFlye”的发布表现出卓越的性能。到2022年,采用Q20+化学的R10.4.1流动槽已经能够生成精确度≥Q20的数据。此外,PacBio Revio测序仪的升级提高了通量,将测序时间缩短至24小时,并确保HiFi读长的精确度超过Q30,这反映了长读长测序技术的极高精确度;HiFiasm-meta组装工具被引入用于HiFi宏基因组组装。

2023年1月,《Nature Methods》上发表了一篇题为“长读长宏基因组架起了通过完整微生物基因组生命之树的道路(Long-read metagenomics paves the way toward a complete microbial tree of life)”的评论文章,这标志着长读长宏基因组学领域取得了重要成就。文章预测,随着长读长测序技术的不断进步,微生物世界的复杂性和多样性将逐步被揭示,最终实现完整的微生物生命树。自那以后,长读长宏基因组技术的应用稳步推进,越来越多的研究者将其应用于科研。例如,Huang等人结合ONT和PacBio的长读长数据与Illumina短读长数据,构建了高质量的熊猫肠道微生物组目录(pandaGUT)。

目前,专为长读长宏基因组设计的工具和资源正在不断开发,包括用于识别和分类宏基因组数据中结构变异的软件(如metaSVs)以及最新的分箱软件BASALT。此外,中国新推出的CycloneSEQ纳米孔测序平台从ZymoBIOMICS肠道微生物标准模拟样本中生成了7.7 Gb的长读长数据,成功定量了15种物种的相对DNA丰度,并组装了10种丰度超过1%的物种基因组,其中9种为环状基因组。在2025年3月,刘永鑫组与李瑞超组合作对现有基于纳米孔测序的宏基因组分析工具进行了全面评估,最终开发出一个集成的生物信息学分析流程——EasyNanoMeta,专门用于解决基于纳米孔测序的宏基因组数据分析需求。这些进展突显了长读长测序在宏基因组学中的重要性,帮助实现了更准确的微生物分析并推动了新发现的产生。

后续我们将回顾并介绍适用于长读长宏基因组研究的最新软件、数据库和生物信息学分析流程。

图1 | 长读长宏基因组学的起源与关键发展

1991-2010年紫色代表宏基因组学的起源阶段,象征该领域的早期探索和概念形成。2011-2018年绿色表示长读长宏基因组学的发展阶段,指引入更长DNA测序读长的时期,这显著提升了宏基因组分析的分辨率和能力。2019-2025及以后橙色代表长读长宏基因组学的成熟与扩展阶段,强调该技术在这一阶段变得更加完善、广泛应用,并显著拓展了其应用领域。

应用长读长宏基因组学解析微生物群落结构和功能Applying long-read metagenomics to analyze microbial community structure and functions

长读长宏基因组测序通过提供覆盖完整基因、操纵子甚至整个基因组的连续序列,大大提升了微生物群落的分析能力。与短读长测序方法相比,长读长测序克服了传统技术的诸多限制,为解析复杂微生物群落的功能潜力提供了更全面的视角。因此,这项技术近年来受到研究者的广泛关注。以下是过去十年中长读长宏基因组技术在实际应用中的总结(图2)。

图2 | 应用长读长测序解析微生物群落结构与功能

快速鉴定群落结构Rapid identification of community structure

长读长测序能够检测短读长技术难以识别的稀有或低丰度物种,从而更全面地揭示样本中的微生物多样性。这种增强的分辨率对于理解土壤、水体以及人类肠道等多种环境的微生物群落结构和功能至关重要。尤其是Oxford Nanopore技术,通过实时测序和分析,实现了病原体的快速鉴定,并能原位监测环境中的微生物群落。

组装环状基因组Assembly circlize genome

长读长测序数据在解决重复区域和结构变异方面表现出色,能够组装出连续的基因组序列,而这在短读长组装方法中往往无法实现。因此,长读长数据可以通过组装和分箱更高效地获得完整基因组。此外,它还支持微生物组参考基因集的研究以及分析近缘基因组之间的系统发育关系。

预测基因与移动遗传元件Predict genes and elements

临床上使用的大多数抗生素和药物都来源于植物或微生物中的天然化合物。结合传统分离分析方法与宏基因组挖掘技术,可以简化基于基因组数据的天然产物通路的鉴定和表征。长读长测序能够恢复完整的生物合成基因簇(BGC)序列,并识别用于药物开发的新型生物合成通路。同时,它还能揭示抗生素抗性基因(ARGs)、金属抗性基因(MRGs)等移动遗传元件的多样性及其关系。这些移动遗传元件(如质粒、转座子和噬菌体)在微生物物种间促进了基因的水平转移(HGT),显著加速了微生物的进化动态和适应性反应。通过长读长测序可以覆盖并表征多个移动遗传元件和基因水平转移事件,从而揭示微生物进化机制及其群落组成。

微生物变异与种群遗传Microbial variation and population heredity

研究种群内微生物的多样性对于理解微生物生态学、进化以及其对人类健康的影响至关重要。长读长测序数据能够跨越复杂的基因组区域,帮助识别短读长技术难以检测的结构变异(如插入、缺失、倒位和易位)。因此,长读长数据不仅提供了访问多种结构变异的途径,还可以量化宏基因组中的种群异质性。

表观遗传与关联分析Epigenetics and associations

PacBio测序技术通过其独特的实时荧光信号检测单碱基甲基化,而纳米孔测序技术则能识别包括5-甲基胞嘧啶(5mC)和N6-甲基腺嘌呤(6mA)在内的碱基修饰。在宏基因组表观遗传学研究中,PacBio和ONT数据均可用于DNA甲基化分析,从而帮助表征宏基因组中不同的细菌种群。此外,这些方法还能用于评估具有异常大小和结构复杂性的微生物基因组。进一步结合Hi-C(High-throughput chromosome conformation capture)或metaPore-C技术,长读长宏基因组学可以提供质粒、宿主和病毒之间的关联信息。

长读长宏基因组学中的软件、数据库和下游工具Software, databases, and downstream tools for long-read metagenome

长读长宏基因组分析的软件描述与评估Description and evaluation of software for long-read metagenomic analysis

随着长读长宏基因组技术的快速发展,生成的数据量迅速增加,推动了新的计算模型和分析工具的改进和应用。因此,本文总结了适用于长读长宏基因组数据分析的生物信息学流程(图3)。表1列出了常用的软件,补充表S1提供了目前可用工具的详细清单与概览。

表1  宏基因组研究热点工具

针对长读长测序开发的宏基因组工具,常用软件的安装和使用方法见 GitHub (https://github.com/zhangtianyuan666/LongMetagenome)。该表根据该领域的发展、读者反馈以及作者进行维护,每季度进行更新。

图3 | 长读长宏基因组分析的生物信息流程

数据质量控制、模拟与宿主序列去除Data quality control, simulator, and host removal

PacBio数据需要在测序完成后进行分析,其原始数据需通过SMRTlink处理,包括去除接头序列和低质量读段。bam2fastx工具可将PacBio的BAM格式数据转换为FASTA和FASTQ格式,并支持条码拆分。从2023年起,ONT数据分析偏好新推出的Dorado软件。对于模拟各种类型的PacBio和ONT长读长数据,常用工具包括PBSIM3、Meta-NanoSim和PaSS。

质量控制步骤,Porechop可对ONT数据进行条形码拆分、接头序列修剪以及潜在嵌合序列的去除,从而提高下游分析的数据质量。NanoFilt可根据序列质量、长度和接头序列对ONT读段进行过滤和修剪,也适用于PacBio数据。工具如LongQC和Seqkit2可评估并确认ONT和PacBio数据的质量,提供包括质量评估、读长修剪和随机化等多种功能。

此外,通过与已知宿主基因组的参考数据库比对,过滤和去除宿主序列是重要步骤。针对长读长数据的比对工具需具备处理连续但错误率较高序列的能力,因此需要使用灵活的算法来应对插入和缺失(indels)。工具如Minimap2因其高效性成为最广泛使用的长读长比对工具之一,而Winnowmap2在Minimap2框架上引入了高级功能,更适合处理高错误率的长读长序列。此外,LAST采用全局最佳比对策略,针对不同数据类型表现高效且准确。其他工具如WFA-gpu和BLASR也可在宿主序列去除中提高精度和速度。

物种组成和读长分箱Taxonomy profiling and read binning

k-mer方法因其高效性和快速性被广泛用于短读长数据分析,目前也应用于长读长宏基因组数据的分类分析。Kraken2因其出色的速度表现备受推崇,同时配备了包括KrakenTools和Bracken在内的完整后续处理工具集。针对纳米孔读段的移码错误,FUNpore结合Kraken进行了校正和分类。此外,工具如Centrifuge也被用于长读长的分类分析。

相比于短读长工具对测序错误的敏感性,基于比对的方法更适合长读长数据,因为它能够充分利用完整的序列信息。BugSeq、Metamaps、LAST、MEGAN-LR和Minimap2是长读长分类分析的主要工具。其中,BugSeq以较快的分析速度著称,Metamaps则因使用NCBI RefSeq数据库和基于期望最大化(EM)算法的分类方法成为最受欢迎的工具,适合进行物种或菌株水平丰度估算。Melon是最近开发的工具,专为长读长数据设计,通过标记基因进行物种分类,并支持NCBI和GTDB数据库。相比之下,虽然Diamond和Kaiju主要为短读长数据设计,但它们通过翻译比对仍可有效注释微生物的相对丰度。

在读长分箱工具方面,metaBCC-LR基于k-mer覆盖和DBSCAN算法,但安装过程复杂(需要gcc v9.4.0)。LRBinner结合k-mer特征和变分自编码深度学习算法,适用于读长和重叠群分箱,表现优于传统工具,同时内存占用更少。MetaProb2通过无监督分箱方法使用概率k-mer统计,但自2021年以来未更新,可作为处理长读长数据的一种备选方案。

宏基因组组装纠错和分箱Metagenome assembly, polish, and Binning

宏基因组通常包含多个物种的基因组,并且通常伴随大量的重复序列和结构变异。长读长测序技术显著提高了基因组的连续性,减少了组装中的不确定性,并提升了复杂结构和重复区域的分辨率。

HiFiasm-meta是专为PacBio HiFi数据设计的组装工具,能够高效处理复杂的宏基因组组装,同时具有很高的精度,但内存需求较大。该工具支持在多个重叠群中组装环形基因组。虽然HiFiasm-meta在资源消耗和运行速度方面表现稍逊,但其在复杂微生物群落组装中的高精度表现弥补了这些不足。metaFlye是长读长宏基因组分析中最流行的软件之一,其核心数据结构基于重复图算法。这种方法有效解决了复杂微生物群落中不均的细菌组成问题,并显著提高了组装结果的完整性。它支持多种类型的PacBio和ONT数据,并能够处理不同的错误率。此外,其“单倍型模式”可以识别更多的异质性结构变异。Lathe结合了长读长组装和环化方法,使用了Flye组装器。该流程适用于来自ONT和PacBio技术的长读长数据,可生成高质量的环形基因组组装。此外,该流程被封装在Snakemake框架中,允许研究人员根据不同的群落类型调整参数。其独特功能包括支持短读长纠错和基因组环化,但该程序自2021年2月以来未更新。metaMDBG是一种新的PacBio HiFi宏基因组组装工具,采用基于最小化子(minimizer)的de Bruijn图组装算法,能够通过迭代算法处理基因组覆盖深度不均的问题。目前该工具已经支持nanopore数据!该工具特别适合在有限计算资源下处理复杂的基因组区域。尽管如此,在处理复杂微生物群落时,HiFiasm-meta的精度表现更为出色。其他长读长宏基因组组装工具还包括STRONG 和Strainberry。总结来说,对于PacBio数据,我们推荐metaMDBG用于快速组装,或HiFiasm-meta用于高精度组装;对于ONT数据,推荐使用Flye以提高运行速度,或使用Lathe进行更全面的分析。

混合组装结合了长读长和短读长数据,是一种常见的宏基因组组装方法。OPERA-MS 是目前最广泛使用的混合组装工具,它通过分步处理短读长和长读长数据的整合,成功解决了短读长组装的局限性。混合组装方法结合了短读长数据的高精度和长读长数据的扩展覆盖能力,从而提升了基因组组装的效果。然而,一些混合组装软件(如hybridSPAdes)最初为单基因组设计,因此在宏基因组中的应用受到一定限制。长读长数据的高错误率使得组装后的校正成为必要步骤。Pilon是一种广泛使用的工具,通过短读长数据来改进和校正长读长组装结果。针对长读长数据的矫正,特别是纳米孔数据,已经开发了多种工具,这些工具同样适用于PacBio数据。Racon 和Medaka是最常用的纠错工具。Racon 通过高效的比对技术进行快速错误校正,支持ONT和PacBio数据,而Medaka 基于深度学习模型,专为ONT数据设计,不适用于PacBio数据。对于PacBio HiFi数据,由于其高精度,通常不需要进行错误校正。但对于ONT数据,错误校正是必要的。其他工具如Nextpolish2和Homopolish 在单基因组组装中表现出色,而Ratatosk是一种混合校正工具,通过结合长读长和短读长数据来提高校正效果。因此,一些研究者倾向于先通过短读长数据校正长读长数据,然后再使用校正后的长读长数据进行组装。

宏基因组分箱是将读长或重叠群(contig)按序列组成、覆盖度和分类信息划分为组(称为bin)的过程。分箱是解析复杂微生物群落中特定分类群或基因组的关键步骤。然而,由于长读长数据缺乏覆盖度和高错误率等信息,分箱工作面临一定挑战。虽然许多基于短读长数据的分箱工具仍被广泛应用于长读长数据,如MetaBAT2和metaWRAP,但近年来也开发了许多专为长读长数据设计的工具。GraphMB和MetaCoAG 是新型的分箱工具,结合了先进的算法来提高分箱精度。GraphMB 通过深度学习技术与metaFlye组装图相结合,在肠道样本数据集中表现出色。MetaCoAG 结合了单拷贝标记基因、图匹配和标签传播算法,能够对metaSPAdes、MEGAHIT 和Flye 组装生成的重叠群进行分箱。该软件还需要从CoverM计算覆盖度,是首个完全自主的重叠群分箱软件,但其性能尚未得到广泛验证。

MUFFIN 是一款整合了混合组装、分箱和注释的综合宏基因组工作流,适用于长短读长技术。BASALT 是最新的多功能工具,能够快速分箱和优化短读长、长读长、混合组装和Hi-C数据,生成高质量的宏基因组组装基因组(MAGs)。尽管BASALT 性能优越,但其资源消耗较高,是目前推荐的最佳工具之一。

GPB | 刘永鑫组搭建长读长宏基因组工具资源版图LongMetagenome

宏基因组Hi-C(metaHi-C)是一种3D表观基因组技术,通过物理接近性检测重叠群之间的连接,极大地提高了分箱的准确性。大多数metaHi-C分析工具(如HiCBin 和bin3C)最初为短读长文库开发,但现在也能处理长读长数据,其效率还有改进空间。MetaCC在分析长、短读长以及metaHi-C数据方面表现出色,是目前推荐使用的工具。

此外,PacBio和ONT除了生成超长读长外,还为分析表观遗传信息提供了有价值的数据。例如,Nanodisco 工具箱能够通过纳米孔测序发现三种DNA甲基化类型(6mA、5mC和4mC),并基于这些表观遗传模式对微生物样本进行高分辨率的分箱。

宏基因组组装基因组(MAGs)的下游分析 Downstream analysis of metagenomic assembly genomes (MAGs)

下游分析的核心是对MAGs(宏基因组组装基因组)进行深入研究和解析。许多最初为短读长宏基因组设计的软件也能够适配长读长数据。dRep 是一种高效的基因组去重工具,能够根据核苷酸相似性对MAGs进行聚类,从而识别不同的基因组实体并减少基因组数据集中的冗余。在MAGs的分类方面,GTDB-tk 是一种非常有效的工具,可用于对细菌和古菌进行分类,即使是在处理大量基因组的情况下也表现优异。另一个工具 Bugsplit利用参考数据库对MAGs进行基于分类学的分类,展示了长读长数据在自动识别复杂微生物群落中的微生物方面的能力。

为了评估MAGs的质量,CheckM2是常用的工具,可用于评估MAGs的完整性和污染度。而CoverM则提供了高级宏基因组数据集分析功能,专注于评估MAG的覆盖度和完整性。MetaQUAST则通过计算组装错误、不对齐的重叠群以及基因预测来评估宏基因组组装的质量。为了量化和分类物种内部的多样性,研究者开发了多种基于宏基因组数据的工具。MetaCortex通过分析多态性符号(如SNPs和indels)来识别差异,从而揭示微小的基因组变异。StrainPhlAn是一种利用标记基因中的单核苷酸变异(SNVs)对物种内部变异进行聚类的工具,非常适合用于系统发育重建和未培养或未鉴定物种的种群遗传学研究。

新开发的工具 Strainy专为长读长数据设计,用于分相和组装菌株单倍型。它以从头宏基因组组装结果为输入,识别菌株变异,并为每个菌株折叠的重叠群构建连接图,其中编码了比对读段之间的成对距离。随后,读长通过群落检测方法按菌株进行聚类,并通过提高对菌株变异的敏感性进一步优化聚类,从而实现对近缘菌株的分离,并将其组装为连续的单倍型。MAGphase是一种专为PacBio读段设计的工具,用于对宏基因组组装图进行分相,能够在宏基因组数据集中识别基因组SNP单倍型。此外,metaSVs结合纳米孔长读长和短读长数据,用于研究复杂微生物群落中的结构变异。这些工具的结合为微生物群落的深入研究提供了强有力的技术支持。

基因预测与功能注释Gene prediction and functional analysis

在获得组装的宏基因组后,基因预测和功能注释是下游分析的重要步骤。在序列组装或分箱之后,基因预测成为基因组注释中的重要步骤。基因预测工具能够识别基因组DNA区域,这些区域可能编码基因、调控元件、蛋白质编码基因以及RNA基因。由于MAGs的注释需求,许多基于短读长宏基因组开发的软件同样适用于长读长数据。

Prokka 是一个功能强大的命令行工具,专门用于注释原核生物(特别是细菌和古菌)的基因组。为了实现全面的基因组注释,Prodigal 用于基因预测,Aragorn 用于tRNA预测,Barrnap 用于rRNA识别。此外,MetaGeneMark2、NCBI-PGAP 和 Glimmer-MG 也常用于基因预测。为了保证注释的全面性和准确性,HMMER 用于识别蛋白质结构域,BLAST+ 用于在数据库(如 UniProt)中搜索同源蛋白。其他工具包括 tRNAscan-SE(用于tRNA识别)、Minced(用于CRISPR识别)、DeepTMHMM(分别用于预测信号肽和跨膜结构域)。同时,CD-HIT 广泛用于创建非冗余的基因或蛋白质序列。

功能注释工具帮助我们理解宏基因组的功能。eggNOG-Mapper 能够快速将蛋白质序列映射到eggNOG数据库中的直系同源组,为功能注释、系统发育分析和蛋白质结构域组成提供支持。这种方法对于注释较少的新测序生物尤其有价值,因为它可以基于功能和进化数据预测未知蛋白质的功能。

生物合成基因簇(BGCs)由负责次级代谢产物生成的酶和调控因子组成。AntiSMASH能够自动识别和注释MAG中的BGCs。当与 BiG-SCAPE结合使用时,研究人员可以更高效地探索天然产物的生物合成途径,从而促进新型代谢途径的发现。

质粒作为原核细胞内能够自我复制的遗传物质,在遗传多样性和进化中发挥了重要作用。PlasFlow能够高效识别基因组和宏基因组数据中的质粒序列。PhiSpy是另一种工具,可识别活跃的前噬菌体,从而帮助更好地理解微生物基因组中的病毒元件。此外,Salmon是一种广泛使用的工具,能够快速且无偏地定量基因表达。

长读长宏基因组学中的数据库The databases in long-read metagenomics studies

在长读长宏基因组学领域,数据库在分析和解释从各种微生物群落生成的大量数据中起着至关重要的作用。由于大多数数据库分析主要集中在重叠群或基因层面的评估上,这些数据库适用于普通宏基因组学研究以及长读长数据分析。以下是宏基因组学中主要使用的数据库概述(表2)。

表2  宏基因组研究数据库

这些数据库适用于通用宏基因组学和长读长宏基因组学。鉴于该领域的快速发展,我们将在 GitHub上每季度更新和维护其内容,以保持其可用性和时效性。

公共功能注释数据库Public functional annotation databases

公共功能注释数据库为研究人员提供了关于宏基因组数据中基因代谢能力和功能潜力的重要信息。关键资源包括由美国国家生物技术信息中心(NCBI)整理的非冗余蛋白质数据库(Nr)、核苷酸数据库(Nt)以及参考序列数据库(RefSeq)。这些数据库不仅提供物种信息,还包含功能注释,帮助识别和分类宏基因组序列。其他常用的功能注释数据库包括GO、UniProt、KEGG和eggNOG。这些数据库经常用于探索基因家族、研究基因功能以及分析代谢和调控通路。

此外,Rfam、Pfam 和 TIGRfam是基于隐马尔可夫模型(HMM)对RNA和蛋白质家族进行分类的数据库。Pfam 描述蛋白质家族和结构域,尤其适合注释蛋白质序列并推断其可能的功能。Rfam 专注于各种非编码RNA(ncRNA)家族,包括核糖体RNA(rRNA)、转运RNA(tRNA)、小核RNA(snRNA)、微RNA(miRNA)以及其他类型的ncRNA。TIGRfam 主要关注与微生物基因组相关的蛋白质和RNA家族。MBGD是一个比较微生物基因组数据库,支持直系同源基因的发现、旁系同源基因分组以及基序分析等。这些数据库为宏基因组序列的注释和微生物群落功能的理解提供了不可或缺的资源。

抗性和可移动遗传元件数据库Resistance and mobile genetic elements database

由于抗生素抗性基因(ARGs)、可移动遗传元件(MGEs)和毒力因子(VFs)在公共健康、流行病学和生物技术中的重要性,许多数据库专注于这些领域。CARD(综合抗生素抗性数据库)和 SARG提供了关于ARGs的详尽信息。此外,BacMet 数据库包含针对金属和抗菌杀生物剂的抗性机制的实验验证信息。VFDB(毒力因子数据库)系统地整理了来自多种细菌病原体的毒力因子,而 PHI-base 收录了与病原性、毒力以及其他疾病机制相关的实验验证基因,包括宿主-病原体相互作用研究。

ISFinder和 mobileOG-db主要分析细菌和古菌中的可移动遗传元件,这些元件在抗生素抗性基因传播和基因组重排中起着重要作用,突出了它们在微生物进化和适应性中的意义。此外,SecReT6数据库提供了关于细菌VI型分泌系统(T6SSs)的全面信息,T6SSs在细菌与真核生物之间的复杂相互作用中发挥重要作用。这些数据库共同为研究微生物群落中抗生素抗性和病原性能力提供了宝贵的见解。

代谢与元素循环数据库Metabolism and elemental cycling

代谢与元素循环数据库专注于研究相关过程中的酶和通路。CAZy、CYPED和 TCDB 是重要的资源,主要针对与代谢相关的基因。CAZy 数据库特别适用于研究参与碳水化合物降解、修饰和生物合成的酶。CYPED 分类了参与氧化代谢的细胞色素P450酶,而 TCDB 则根据进化关系和功能角色对运输蛋白进行分类。antiSMASH 数据库收集了生物合成基因簇(BGCs),而 BiG-SCAPE将这些基因簇按相似性进行分类,并生成网络,用于大规模研究与天然产物相关的基因簇。NCycDB、SCycDB、MCycDB和 PCyCDB数据库提供了关于特定代谢通路的详细信息,使研究人员能够深入探索代谢功能和过程。

物种分类学数据库Taxonomic databases

分类学数据库为生物体的分类和分类学信息提供了基本数据。这些数据库用于为测序读段分配分类标签,并推断微生物群落的分类组成。IMG/VR数据库用于分析和评估细菌、古菌和病毒的公共基因组数据,包括元数据、功能注释和分类信息。GTDB(基因组分类数据库)基于基因组序列为细菌和古菌提供标准化的可靠分类系统,采用系统发育方法确保分类更加准确和最新。

VirSorter2 数据库与VirSorter分析流程相关,用于检测和分类宏基因组数据中的病毒序列。CheckV 数据库收集了系特异性标记基因,用于评估从宏基因组中提取的病毒基因组的质量、完整性和分类。Kraken2DB和 KaijuDB 广泛用于为宏基因组序列分配分类标签。它们利用公共数据库和可定制特性,根据研究需求对分类群进行分类。长读长宏基因组学研究依赖这些数据库来对从物种到门等不同分类水平的生物体进行分类。这些分类学信息帮助研究人员厘清微生物群落的组成、结构及其在生态系统中的功能。

R 包在长读长宏基因组学研究中的应用The applications of visualize R package in long-read metagenomics studies

可视化在探索、分析和传达复杂生物数据中起着关键作用,特别是在使用长读长测序技术进行宏基因组学研究时。多种 R 包能够高效处理和可视化长读长宏基因组数据(表 3)。需要注意的是,这些 R 包同样适用于全面的短读长宏基因组分析,因此在长读长宏基因组学领域也具有强大的应用潜力。

表3  可视化R包在宏基因组研究中的应用

这些 R 包可以分为四大类:

1.宏基因组和微生物组的分析与可视化:包括 MetagenomeSeq、EasyAmplicon、EasyMetagenome、EasyMicrobiome、MicrobiomeStat、microbiome、EasyMicroPlot 和 Phyloseq。这些工具被设计用于导入、分析、统计处理和可视化微生物组数据,帮助研究人员理解生物多样性和微生物生态系统的功能。

2.数据可视化与绘图工具:如 ImageGP、clusterProfiler、igraph、compositions 和 Corrplot提供了多种分析和可视化选项,从简单的图表到复杂的网络、聚类和降维研究。

3.多组学分析工具:包含 ivTerm 和 mixOmics等工具,能够结合和分析多个生物层的数据(如基因组学、转录组学和蛋白质组学)。这些工具对于阐明复杂生物系统中的关系至关重要。

4.数据处理与统计分析工具:广泛使用的 R 包如 ggplot2 及其扩展包(如 ggtree),以及 networkD3、circlize、ggvenn、ggmap、ggpubr、UpSetR 和 Pheatmap,提供了从基础到高级的数据处理和可视化功能。这些工具使研究人员能够创建定制的可视化图表,有效解释数据分析结果。

每个 R 包的具体目标详见表 S2。总体而言,这些 R 包显著提升了宏基因组分析的复杂性和深度,使研究人员能够从庞大且多层次的数据集中获得有意义的生物学见解。

总结与展望Summary and outlook

在宏基因组学领域,先进的测序技术(如ONT和PacBio)极大地改变了对复杂微生物群落的研究方式。这些技术通过长读长测序覆盖整个微生物基因组,克服了短读长测序的局限性。这些进步为解决基因组重复区域、识别结构变异以及准确表征未培养微生物提供了新机遇。本综述聚焦于在宏基因组学中利用ONT和PacBio技术的计算工具与资源。尽管这些测序技术能够产生大量的宏基因组数据,但要提取有价值的信息并理解微生物群落的结构和功能,仍需强大的计算工具和资源支持。

突破点:针对长读长宏基因组数据的独特挑战,开发了许多专用软件。例如,用于从头组装的工具包括针对ONT的metaFlye和Lathe,以及针对PacBio的HiFiasm-meta和metaMDBG。基础调用工具如Dorado(适用于ONT)和SMRTlink(适用于PacBio)提高了原始序列数据的准确性。宏基因组分箱工具如BASALT和GraphMB利用长读长数据实现了对群落中个体物种的更精确解析。在分类学分类方面,开发了专门针对长读长宏基因组的分类器,如BugSeq2和Metamaps。

局限性:尽管取得了这些进展,长读长技术的应用仍存在一些需要进一步开发或优化的领域。这些软件的有效性和功能尚未得到充分验证,大多数评估仍然依赖于短读长数据。随着长读长技术的持续发展,我们期待这些方法在未来的宏基因组研究中能够产生更有效的成果。当前,亟需集成化的分析流程,从未处理的数据到生物学见解的过渡中实现优化。这些流程应涵盖质量控制、组装、分箱和功能注释。与此同时,创新的统计技术、机器学习和人工智能(AI)算法的开发对于处理长读长数据分析中的噪声和固有偏差至关重要。

特别是在宏基因组甲基化和metaPore-C领域,目前的资源较为有限。在宏基因组学中,识别甲基化位点并对复杂群落进行功能注释对于理解环境样本中微生物的甲基化模式至关重要。宏基因组甲基化研究可以从长读长测序技术中受益,但需要专门的甲基化分析技术来解析甲基化位点。而metaPore-C能够改善组装和分箱,并关联质粒、宿主和病毒。目前, ONT只提供了适用于metaPore-C的实验技术和策略,但其具体应用尚未有详细报道。

未来展望:到2025年,PacBio的测序通量预计将显著提高,从而支持更快、更全面的大规模宏基因组研究。同时,ONT的读长准确性预计将大幅提升,目标达到Q20,甚至可能达到Q30。这种准确性水平将使ONT的错误率更接近传统短读长方法,从而提高宏基因组组装的可信度。这些进步将扩大ONT在高精度应用中的作用,例如宏基因组学研究,在这些领域,高准确性对于识别低丰度物种和区分近缘物种至关重要。随着这些技术的进步,研究人员将能够以前所未有的深度洞察微生物、病毒和宿主生物多样性中的大规模遗传变异和表观遗传模式,从而加深对遗传学与环境之间复杂交互作用在健康和疾病中的理解。

综上所述,尽管基于ONT和PacBio数据的宏基因组学计算工具和资源开发已取得显著进展,但持续的创新和适应仍然是充分利用这些重要测序技术、理解复杂微生物生态系统的关键。

关键技术术语Key technical terms

关键概念 1 | 流动池 (Flowcell):流动池是一种用于高通量测序系统的设备,由带有纳米孔或通道的玻璃载片组成,用于处理核酸样本。流动池化学反应包括荧光标记的核苷酸、DNA聚合酶和缓冲系统。对这些过程的精确控制对于获得准确的测序数据至关重要。

关键概念 2 | 质量评分 (Quality Score, Q score):质量评分(Q score)用于衡量DNA测序碱基识别的准确性,该评分与错误率成反比。例如,Q20表示错误率为1/100(即99%的准确性),而Q30表示错误率为1/1000(即99.9%的准确性)。

关键概念 3 | MAG (Metagenome-Assembled Genome):宏基因组组装基因组(MAG)是从宏基因组测序数据中重建的基因组。这一过程涉及对直接从环境样本中提取的遗传物质进行综合分析。通过生物信息学技术对复杂微生物群落的序列进行组装和分箱,最终获得MAG。

关键概念 4 | 分箱 (Binning):在宏基因组学中,分箱是一种生物信息学过程,用于将DNA序列分组到离散的“箱”中,每个箱代表一个假定的基因组。有了分箱技术,研究人员能够从复杂的微生物群落中提取特定物种的基因组信息。

引文

Tianyuan Zhang, Mian Jiang, Hanzhou Li, et al. 2025. Computational Tools and Resources for Long-read Metagenomic Sequencing Using Nanopore and PacBio. Genomics, Proteomics & Bioinformatics qzaf075. https:///10.1093/gpbjnl/qzaf075

作者简介

张天缘(第一作者)

张天缘,中国农业科学院深圳农业基因组所刘永鑫组博士后,任武汉贝纳基因大项目应用科学家,深圳鹏程计划D类人才。2014年-至今从事生物信息学研究工作,在基因测序领域有丰富的经验,擅长转录组与微生物组研究,目前聚焦于最新的测序技术的快速广泛应用,主持培训及讲座数次。参与发表iMeta等SCI文章26篇,包含一作及通讯(含共同)8篇。兼职为Biology Methods & Protocols、Frontiers in Plant Science、gene等期刊审稿数次;H指数(H-index):15。

刘永鑫 (通讯作者)

刘永鑫,中国农科院深圳基因组所研究员,iMeta执行主编。聚焦微生物组方法开发、功能挖掘和科学传播,在Nature Biotechnology、Nature Microbiology等发表论文80篇,15篇入选ESI高被引论文,被引30000+次,入选全球前2%科学家榜单、全球高被引科学家、国家级青年人才项目。兼任中国微生物组、计算合成生物学专委会委员,创办18万+同行关注的宏基因组公众号,主编《微生物组实验手册》专著,发起iMeta 期刊(IF 33.2),位列全球前千分之三。兼职为Cell子刊、NC、NAR、Microbiome等期刊审稿370余次。