这个重要的植物基因组测序情况查询数据库总算可以以期刊论文形式引用了。感谢Björn Usadel团队。
个人感想:虽不知该预印本最终会发表在何期刊,但就此文章而言,未来必是一篇高被引论文,发表此文的期刊最终也将受益,势必会推升期刊影响因子。
https://www./pubplant_main.html禾本科已发表基因组总结
摘要
过去十年,下一代测序技术的进步大幅降低了植物基因组测序的成本和工作量。早期研究主要集中于经济作物和模式物种,如今则转向更广泛的植物类群,包括那些基因组更大、结构更复杂的物种。2024年已有500个植物物种的基因组数据发表,其中370个属首次测序。对已发表的植物基因组(目前覆盖1800余种)进行追踪并提供访问渠道,是为植物科研人员提供的宝贵服务。PubPlant作为在线资源平台(https://www./pubplant_main.html),通过系统收录已发表的植物基因组序列并提供多种可视化方案来实现这一功能。该平台包含基因组发表时间轴、展示已测序植物系统发育关系的分支演化树,以及重点标注已测序物种所属目和科的种子植物概览图——该图同时揭示了目前尚未开展基因组测序的分类群。作为PubPlant的应用案例,我们评估了粮食作物的测序现状,发现包含最多粮食作物的五个植物科恰好也是测序物种数量最多的科。
背景介绍
首个完成测序的植物基因组是实验室模式生物拟南芥(Arabidopsis thaliana),其成果于2000年发布(拟南芥基因组计划)。此后耗时十年才实现20个植物基因组的测序里程碑,但仅用四年便突破100个基因组,至2020年已完成500个植物基因组测序。值得注意的是,后续500个植物基因组的测序仅耗时两年(仅为前500个所需时间的十分之一)。这一进展仍在加速,主要得益于第三代长读长测序技术的出现及其持续优化。测序技术的进步与更强大的生物信息学算法发展同步推进,这些算法用于基因组数据的组装和注释。hifiasm和verkko等基因组组装工具能整合两种主流长读长测序技术的数据——即牛津纳米孔公司开发的纳米孔测序技术,以及太平洋生物科学公司以PacBio平台商业化的单分子实时测序技术。
第三代测序技术的突破性进展使基因组测序成本和工作量大幅降低,目前即使中等经费的研究团队也能承担。因此近年来植物全基因组测序项目数量激增(图1)并不令人意外。截至2024年底,已有超过1800种植物完成测序,其中500余种完成二次测序,200余种完成三次及以上测序。虽然被测序植物物种数量稳步增长,但由于同一物种的多次重复测序,个体基因组测序数量增速更快。重新测序的驱动力包括:采用更先进技术以获得更完整基因组,以及物种内泛基因组计划——通过对同一物种不同品种、栽培种或生态型多个个体测序来探索完整基因组景观。典型主粮作物泛基因组案例包括玉米、大麦、小麦、水稻和马铃薯,以及番茄等水果作物和茶叶等饮料作物。
图1.随时间推移已完成测序并发表基因组的植物物种数量
浅绿色柱表示至少完成一次测序的物种数,中绿色柱代表至少完成两次测序的物种,深绿色柱为完成三次及以上测序的物种。柱状图展示了过去十年间的季度数据。
学界定期对植物基因组测序史进行总结,以呈现特定时间节点的测序进展,通常聚焦重大技术突破。但由于技术迭代速度过快,此类综述发表时往往已过时。Plants-Genomes-Technologies(N3)数据库是保持高频更新的尝试之一,其最新3.0版本(访问于2025年2月17日)发布于2024年1月11日。本文介绍另一个名为PubPlant(https://www./pubplant_main.html)的在线资源,该平台持续追踪并更新已发表的植物基因组序列,迄今已近十年。
表1 PubPlant图表中用于系统发育分类的资源
结果与讨论
已发表植物基因组的时间轴
PubPlant的时间轴视图根据植物基因组首次发表的日期进行展示(图2,完整列表见附表1)。若同一植物物种有两篇文献同日发表,则选择录用日期较早的文献列入。该视图将植物条目分为双子叶植物、非双子叶植物、非被子植物和藻类四大类(图2)。
图2.PubPlant中已发表植物基因组的时间轴视图
彩色方框代表单个物种或同一属多个物种(如文献描述同属多个物种时标注’spp.’)的测序基因组。网站上,鼠标悬停功能可显示学名(若为同属多个物种则显示学名列表,如图示卷柏属案例)、植物俗名、基因组大小及首次发表文献引用。点击方框将在新窗口打开全文文献。
已测序植物基因组的系统发育关系
PubPlant的分支演化树视图依据各物种的系统发育位置排列已发表的植物基因组(图3)。为提高可读性,开花植物与非开花植物的分支演化树分开展示。演化树中的每个条目均设有鼠标悬停功能,弹出框会显示该植物的学名、俗名及基因组大小,同时提供相关文献详情(一篇或多篇),包括对应全文文章的链接。

图3.PubPlant中已测序植物物种的分支演化树视图(以无患子目为例)
该视图展示科级以下分类单元(包括亚科和物种层级的测序基因组)。网站上悬停学名会弹出窗口显示基因组大小及相关文献(多次测序物种最多列三篇),含全文链接。
已测序种子植物概览图
种子植物主要分为被子植物和裸子植物两大类。被子植物是目前多样性最丰富的现存植物类群,包含超过35万已知物种,归属于64目400余科。裸子植物类群规模小得多,仅存1100个现存物种,其物种数量仅相当于某些大型被子植物属(如茄属、金合欢属和杜鹃花属)。截至2024年底,已有1700种被子植物和26种裸子植物完成测序。
PubPlant的分支演化树着重展示单个物种层面的信息,而概览图则通过内嵌进度条在科级分类水平上呈现数据。该演化树显示各植物科的系统发育位置,进度条则标示该科已测序物种的数量(图4)。概览图还包含迄今尚未有任何物种测序的科,由此可发现许多植物科仍无测序物种(例如石竹目38个科中有25个科尚无测序记录)。
图4.被子植物测序概况图(以石竹目为例)
根据APG-IV系统,该目包含38科。浅棕色条形表示各科物种总数,深棕色条形显示已测序物种数(均采用对数刻度)。网站上悬停深色条形会弹出窗口列出已测序属名及物种数,黄色圆点标注最新发表基因组,悬停提示框显示具体物种名称及全文链接。
应用案例:已测序粮食作物分析
作为典型案例,我们评估了粮食作物的测序现状。具有重要经济价值的粮食作物一直是测序工作的主要目标,因其基因组信息可揭示控制农艺优良性状的基因。某些作物的超大基因组(主要由于多倍性、重复DNA序列和超长内含子的存在)曾阻碍研究进展,直至长读长测序技术问世。例如洋葱和蚕豆的基因组大小分别达16 Gbp和13 Gbp。得益于前述技术进步,目前联合国粮农组织数据库记载的几乎所有粮食作物物种均已完成测序。
对测序数量最多的五大植物科(禾本科、豆科、茄科、蔷薇科和十字花科)的进一步分析表明,这些科同样包含数量最多的粮食作物物种(图5,详见表2)。其他如杨柳科等不含粮食作物的科虽也有测序物种,但这反映了该科杨树和柳树等林木物种的重要性。类似地,兰科虽仅含一种经济作物(香草兰),却因众多观赏兰花的商业价值而拥有大量测序物种(图5)。
图5.展示超过20个物种完成测序的植物科散点图
横轴为截至2025年2月各科已测序物种数,纵轴为FAOSTAT数据库(2024版)统计的各科主要粮食作物数(含未测序物种)。
表2 测序基因组数量最多的植物科
目前仅少数粮食作物尚未测序(表3),包括伞形科的食用香料(如茴芹)、石蒜科的韭葱、茶藨子科的醋栗等。值得注意的是,黑醋栗(茶藨子科)是近期最新完成测序的作物之一。按产量排序,几乎所有未测序粮食作物均位列全球前120种作物的后半段(表3)。虽然重要粮食作物已全部测序,但剩余未测序物种往往在对植物基因组测序贡献较少的国家具有重要性(表3)。目前对作物基因组发表贡献最大的国家依次为中国、美国、日本、德国和澳大利亚。
表3 尚未测序或近期刚完成测序的粮食作物
结论
近年来,新测序植物基因组的发表已呈常态化趋势,几乎每周都有新成果发布(图1)。虽然定期发表的综述文章能呈现撰稿时的研究概况,但其内容往往迅速过时。为此我们重点推介在线资源平台PubPlant,该平台持续更新已发表植物基因组的最新信息。PubPlant具备三大核心功能模块:时间轴视图按首次发表日期展示测序植物基因组的编年序列(图2);分支演化树视图依据系统发育关系排列所有已测序植物物种(图3),其中开花植物与非开花植物的演化树分开展示;概览图则呈现所有已测序种子植物在科级分类单元的系统发育位置,包括迄今尚未测序物种的科,同时标注各科物种总数、已测序物种数及已测序属,并高亮显示最新发表的基因组(图4)。
作为PubPlant的应用示范,我们评估了优先获得测序的粮食作物现状。不出所料,几乎所有主要粮食作物(按FAOSTAT产量排序的完整列表见附表2)均已完成测序。值得注意的是,测序基因组数量最多的五个植物科(禾本科、豆科、蔷薇科、茄科和十字花科)恰好也是包含主要粮食作物最多的科(表2)。
PubPlant在线运行已逾九年,被广泛用于植物基因组测序进展综述的撰写(及药用植物测序现状评估等场景。与其他更新周期不定的植物基因组资源相比,PubPlant坚持月度更新机制,为植物学界提供了直观便捷的基因组测序历史与现状查询平台。
附表1 | 按时间排序的已发表植物基因组列表
附表2 | 按产量排序的FAOSTAT粮食作物分类列表