写在前面

事实上,我们从来没想过要做细胞器基因组,更没有想到和唐总(在广州时团队的小伙伴)一起折腾了HiMT。显然,HiMT应该是从一定程度上缓解了“细胞器基因组组装焦虑”。我们主要解决了两个小问题:

  1. 计算资源和计算速度;
  2. 更直观的组装质量评估;

前者不言而喻,用了HiMT的朋友应是都清楚。如果还没用过也不担心,有必要时我们也可以写一个简单的HiMT上手教程,尽管绝大多数情况下,你只是需要用 TBtools 的 HiMT 插件或者一行命令。

但问题也来了,不少人组装好了细胞器基因组,比如叶绿体或者线粒体基因组之后,下一步呢?这个能告诉我们啥?当然序列分析是一方面,一般还拿来做啥,对于主业并不在演化上的,或许也能拿来构建进化树,粗略判断材料间的演化关系。

如何做?

以叶绿体基因组为例(逻辑上线粒体基因组类似):

  1. 明确输出文件的含义,尤其是找到对应的 .fasta 序列文件;
  2. 使用 1. 得到的 fasta 序列文件,进行基因组的注释,有许多工具,比如GeSeq可以选,也可以直接在线注释;
  3. 使用 1. 得到的 fasta 序列文件,直接比对到 NCBI 筛选到近源可用的细胞器基因组,选择并下载多个物种细胞器基因组;
  4. (可选的外类群)使用 1. 得到的 fasta 序列文件,直接比对到 NCBI ,注意排除过渡近源细胞器基因组(比如同个属的),随后,作为外类群

简要图文教程如下:

一般组装完成后,我们最好是直接本地打开质量评估报告,看看其中保守基因的概况,最直接的指标就是看看是否全面,相似度是否高。自然有经验的会有更好的判断,但一般全面和相似度都高,那么就基本说明问题了(兴许这类我们也可以后续写一个教程)。

对应的叶绿体一般有两种基因组的“异构体”,无需在意这个中文描述,我们的命名上是参考GetOrganelle的。此处我们直接使用chloroplast_path1.fa即可。

进行叶绿体基因组注释

具体可以参考之前推送过的教程,简要如下:打开网页, http://47.96.249.172:16019/analyzer/home

选择菜单栏的「AnnoGenome」,点击后,按照要求填写内容即可,逻辑上因为叶绿体基因组还是非常保守的,可以考虑只使用 43 个参考物种注释,有必要也可选择其他。如果偷懒就直接上传文件,点击 Submit 即可。我个人是建议放一个邮箱,避免网络问题,找不到注释结果。

Submit之后会报错

这个是应该是网站值得优化的地方,回头提交给作者团队。看报错,我们修改一下后缀即可。

重新上传注释

等20min之内的邮箱邮件即可,事实上,我认为这个应该是速度非常快的,估计是网站业务量大,导致速度有限。但不影响,现在是 12:06,我回家吃个饭回来看结果刚好。

零基础 | 一键HiMT细胞器基因组到进化树构建

我发现似乎没有收到邮件,没关系,一般这个几分钟就完成了,直接黏贴我们上面得到的任务编号「175713148432005」,点击「Submit」即可。

结果如下

实际上,我们只需要这个「GenBank」文件,即可用于后续进化树构建,当然,最好是替换一下物种名

确定近源物种和可选的外类群

直接将前述选取的 .fasta 文件比对到NCBI就可以了

这样比对,大概率就可以得到足够近源的系列物种细胞器

勾选一些你觉得合适的物种,下载他们的GenBank文件就可以。顺便我们找个外类群。

方法简单,直接重新BLAST

选第一个就可以了,同样下载GenBank文件

构建进化树

将上述2个或者3个GenBank文件放置到一个目录,随后 TBtools 一键构建进化树

随后直接将三个文件所在目录,整个目录设置到功能界面即可

蛋白也可以,CDS也可以,后者分辨率会高一些,运行起来会慢一些。整个逻辑非常简单:

  1. 检索目录下所有GenBank文件,其中的叶绿体基因组中的CDS和蛋白注释;
  2. 细胞器基因组一般没什么WGD或者基因复制事件,总的来说,就是有比较多的单拷贝的基因,这些单拷贝的基因可以认为就是同源的;
  3. 提取所有单拷贝基因的CDS或者蛋白;
  4. 逐个对单拷贝基因进行多序列比对,和修剪;
  5. 串联所有比对结果,这样每个物种就是一个很长的序列,也就是位点就足够多了;
  6. 调用IQtree构建ML树

得到结果

进入其中,找到 .treefile 文件即可,使用 TBtools Simple Tree View 快速可视化

一般要手动以outgroup定根,但我为了方便,直接 MADPoint 定根,试过了,没遇到过错误的时候。结果如下

很明显,外类群是根,其他的咱们就不说了。挺好的结果。

写在最后

没啥,就是不想干活,所以写了教程。当然,如果你是线粒体基因组,一样的。