服务热线:18061729102/ 025-85380280
技术支持

叶绿体基因组分析注意事项之组装

发布日期:2021-08-27 浏览次数:789

叶绿体基因组分析注意事项之组装

组装篇

随着测序技术以及生信技术的发展,越来越多的叶绿体基因组被发表,那我们在做叶绿体基因组分析的时候需要注意哪些问题呢?今天主要谈一谈具有四分体结构的叶绿体基因组常见的组装问题。

组装问题

目前有部分序列由软件直接组装得到的环状序列,未经过检查校正,会存在以下问题:

1个别碱基错误,或者采用低深度的碱基作为组装结果,这种用校正软件校正下即可,但是重复区的序列可能校正不了。

2错误连接,连接处没有reads覆盖,或者覆盖很差,这种需要将reads比对到目标区域,局部手动组装,或者用软件延伸后校正。

3 序列方向问题,主要是单拷贝区方向问题,二代组装是无法判断单拷贝区的方向的,正向和反向的结果都可能出现,LSC和SSC均可能反向,为了便于后续的分析,需要根据已有参考进行比较,和参考序列保持一致即可。

4序列起点问题,四分体结构的叶绿体基因组一般以LSC作为起点,但是有的组装软件没有起点校正这一块,所以容易出现起点不对的情况。比如正常顺序是:LSC:1-8,IRb:9-11,SSC:12-13,IRa:14-16。如果起点位于LSC和SSC中,对反向重复区的鉴定并不影响,如果起点位于IR中,那么在鉴定反向重复区的时候可能会出现一些小问题,比如以16作为起点,那么序列就是16,1-15;在鉴定的时候很容易把16算到大单拷贝中,即:LSC:16,1-8,IRb:9-10,SSC:12-13,IRa:14-15。这个时候反向重复区会缩减。这种情况对后续的分析,尤其是边界分析上是有很大影响的。

5反向重复区不完全的反向互补问题,根据个人的经验,反向重复区相当的保守,我自己组装过的近六百个叶绿体基因组,所有的反向重复区都是100%相似的,但是目前有些已经发表的序列出现反向重复区有碱基不同(不是互补的),可能还是组装的时候没有校正好,当然,也可能确实存在反向重复区不一样的序列。在组装的过程中,个人也发现有些组装出来的序列反向重复区不是100%相似,那如何判断到底是不是对的呢?可以根据覆盖深度判断,如果叶绿体基因组的平均覆盖深度都为1(此处深度是指match的碱基数),那么单独的一个反向重复区的序列覆盖深度应该为2,如果反向重复的某个碱基发生改变,其覆盖深度也会出现相应的变化——单独的一个反向重复区的某个位置覆盖深度会变成1,这样就大概能确定反向重复区的该位点确实不一样。在个人分析的过程中发现,NCBI上已有的叶绿体基因组中,反向重复区不完全反向互补大多数是由于SNP类型的差异导致的,少部分是由于小的InDel导致,还有极少一部分是由于大片段的差异,甚至把反向重复区隔断(但是近源物种中反向重复区是100%相似)。这种情况很可能是错误的组装造成的,这样对后续的分析会有不好的影响。

6 兼并碱基问题,个别软件组装结果中会出现兼并碱基,建议根据深度换成单个碱基,不然可能会影响后续的注释以及重复序列等分析。

7 三代组装问题,这个问题相对还是比较麻烦的,但是目前用三代组装的序列好像不多。三代组装叶绿体基因组是比较容易的事情,而且由于超长reads,甚至可以确定单拷贝区的方向,但是常见的三代组装策略都是先用序列自我纠错然后组装得到序列后再用三代和二代数据纠错。这里会出现如下的问题:如果组装软件不存在修剪冗余序列的话,产生的环状序列可能会有冗余,需要自己删掉。其次就是序列错误,即使通过上述的校正,还是会存在很多错误的位点,尤其是在反向重复区中,导致反向重复区的差异位点会很多,这些都要后期自己校正了~

叶绿体组装是第一步,也是非常重要的一步,我们的要求是做到每个碱基都是最完美的状态,这样对于后续的分析才不会产生由于组装问题导致的错误结论。