写在前面
事实上,我们从来没想过要做细胞器基因组,更没有想到和唐总(在广州时团队的小伙伴)一起折腾了HiMT。显然,HiMT应该是从一定程度上缓解了“细胞器基因组组装焦虑”。我们主要解决了两个小问题:
-
计算资源和计算速度; -
更直观的组装质量评估;
前者不言而喻,用了HiMT的朋友应是都清楚。如果还没用过也不担心,有必要时我们也可以写一个简单的HiMT上手教程,尽管绝大多数情况下,你只是需要用 TBtools 的 HiMT 插件或者一行命令。
但问题也来了,不少人组装好了细胞器基因组,比如叶绿体或者线粒体基因组之后,下一步呢?这个能告诉我们啥?当然序列分析是一方面,一般还拿来做啥,对于主业并不在演化上的,或许也能拿来构建进化树,粗略判断材料间的演化关系。
如何做?
以叶绿体基因组为例(逻辑上线粒体基因组类似):
-
明确输出文件的含义,尤其是找到对应的 .fasta 序列文件; -
使用 1. 得到的 fasta 序列文件,进行基因组的注释,有许多工具,比如GeSeq可以选,也可以直接在线注释; -
使用 1. 得到的 fasta 序列文件,直接比对到 NCBI 筛选到近源可用的细胞器基因组,选择并下载多个物种细胞器基因组; -
(可选的外类群)使用 1. 得到的 fasta 序列文件,直接比对到 NCBI ,注意排除过渡近源细胞器基因组(比如同个属的),随后,作为外类群
简要图文教程如下:
一般组装完成后,我们最好是直接本地打开质量评估报告,看看其中保守基因的概况,最直接的指标就是看看是否全面,相似度是否高。自然有经验的会有更好的判断,但一般全面和相似度都高,那么就基本说明问题了(兴许这类我们也可以后续写一个教程)。
对应的叶绿体一般有两种基因组的“异构体”,无需在意这个中文描述,我们的命名上是参考GetOrganelle的。此处我们直接使用chloroplast_path1.fa即可。
进行叶绿体基因组注释
具体可以参考之前推送过的教程,简要如下:打开网页, http://47.96.249.172:16019/analyzer/home
选择菜单栏的「AnnoGenome」,点击后,按照要求填写内容即可,逻辑上因为叶绿体基因组还是非常保守的,可以考虑只使用 43 个参考物种注释,有必要也可选择其他。如果偷懒就直接上传文件,点击 Submit 即可。我个人是建议放一个邮箱,避免网络问题,找不到注释结果。
Submit之后会报错
这个是应该是网站值得优化的地方,回头提交给作者团队。看报错,我们修改一下后缀即可。
重新上传注释
等20min之内的邮箱邮件即可,事实上,我认为这个应该是速度非常快的,估计是网站业务量大,导致速度有限。但不影响,现在是 12:06,我回家吃个饭回来看结果刚好。

我发现似乎没有收到邮件,没关系,一般这个几分钟就完成了,直接黏贴我们上面得到的任务编号「175713148432005」,点击「Submit」即可。
结果如下
实际上,我们只需要这个「GenBank」文件,即可用于后续进化树构建,当然,最好是替换一下物种名
确定近源物种和可选的外类群
直接将前述选取的 .fasta 文件比对到NCBI就可以了
这样比对,大概率就可以得到足够近源的系列物种细胞器
勾选一些你觉得合适的物种,下载他们的GenBank文件就可以。顺便我们找个外类群。
方法简单,直接重新BLAST
选第一个就可以了,同样下载GenBank文件
构建进化树
将上述2个或者3个GenBank文件放置到一个目录,随后 TBtools 一键构建进化树
随后直接将三个文件所在目录,整个目录设置到功能界面即可
蛋白也可以,CDS也可以,后者分辨率会高一些,运行起来会慢一些。整个逻辑非常简单:
-
检索目录下所有GenBank文件,其中的叶绿体基因组中的CDS和蛋白注释; -
细胞器基因组一般没什么WGD或者基因复制事件,总的来说,就是有比较多的单拷贝的基因,这些单拷贝的基因可以认为就是同源的; -
提取所有单拷贝基因的CDS或者蛋白; -
逐个对单拷贝基因进行多序列比对,和修剪; -
串联所有比对结果,这样每个物种就是一个很长的序列,也就是位点就足够多了; -
调用IQtree构建ML树
得到结果
进入其中,找到 .treefile 文件即可,使用 TBtools Simple Tree View 快速可视化
一般要手动以outgroup定根,但我为了方便,直接 MADPoint 定根,试过了,没遇到过错误的时候。结果如下
很明显,外类群是根,其他的咱们就不说了。挺好的结果。
写在最后
没啥,就是不想干活,所以写了教程。当然,如果你是线粒体基因组,一样的。