服务热线:025-85381280
文献解读

集思慧远客户发表《麻栎叶绿体全基因组序列及系统发育分析》

发布日期:2019-03-17 浏览次数:359

南京集思慧远客户发表

麻栎叶绿体全基因组序列及系统发育分析



  麻栎(Quercus Acutissima)是栎属重要的特有生态植物,广泛分布于全国各地。然而,对其叶绿体基因组的研究却很少。在本研究中,对麻栎的叶绿体(Cp)全基因组进行了测序、分析,并与壳斗科家族4种植物进行了比较。麻栎叶绿体基因组的大小为161124bp,包括1个90,423 bp的大单拷贝(LSC)区和一个19,068 bp的小单拷贝(SSC)区,由51,632 bp的两个反向重复区(IR)隔开。全基因组的GC含量为36.08%,LSC、SSC和IR的GC含量分别为34.62%、30.84%和42.78%。麻栎叶绿体基因组编码136个基因,其中蛋白质编码基因88个,rRNA基因4个,tRNA基因40个。在重复结构分析中,麻栎叶绿体基因组中共检测到31个正向重复、22个反向重复序列和65个简单序列重复位点。基因组中丰富的简单序列重复位点(SSRs)的存在表明了未来群体遗传工作的潜力。基因组比较表明,LSC区比SSC区和IR区的差异更大,非编码区的差异比编码区的差异更大。25个物种的系统发育关系推断,栎属的成员不形成进化枝,而麻栎(Quercus acutissima)与栓皮栎(Q.variabilis)密切相关。本研究确定了麻栎叶绿体基因组的独特特征,为物种鉴定和生物学研究提供了理论依据。


  材料方法

  材料:在南京林业大学和南京紫金山分别种植麻栎,收集新鲜的叶子用冰冷冻,并立即储存于-80֯C,以供后期分析。

  方法:测序平台:Illumina Hiseq 2500;数据质控:Fastqc;组装软件:NOVOPlasty;注释:CpGAVAS;检测注释结果:Dogma和BLAST;鉴定tRNA:tRNAcanse;图谱绘制:OGDRAWv1.2;用MISA和REPuter对SSRs和long repeat进行处理;序列比对:MUMmer;用NCBI和NR数据库,结合BI(贝叶斯推理)方法构建系统进化树;序列对齐:MAFFT;序列可视化和调整:BioEdit;最优拟合评价:IQ-tree;用Mrbayes进行BI分析。



  结果分析

  1.麻栎CpDNA的特征


  Fig.1麻栎叶绿体基因组图谱


  圆周内的基因是顺时针转录的,而外面的基因则是逆时针转录的。具有不同功能的基因是彩色编码的。内部圆圈中较深的灰色显示GC含量,而较浅的灰色显示AT含量。

  Cp基因组显示出典型的四部分结构,包括一对IR(25,816bp),由大的单拷贝(LSC;90,423 bp)和小的单拷贝区域(SSC)分隔。

  LSC区、SSC区、IR区和全基因组的DNA G+C含量分别为34.62、30.84、42.78和36.08 mol%,与其它栎属植物的叶绿体基因组相似,如图A1和表2。


  Fig.A1叶绿体基因组的BLAST结果和麻栎的GC偏移


  表2麻黄叶绿体基因组的碱基组成


  DNA G+C含量是物种亲和力的重要指标。IR区DNA G+C含量明显高于其它区域(LSC、SSC),这种现象在其他植物中很常见。

  在麻栎叶绿体基因组中,136个功能基因被预测并分成6组,包括8个rRNA基因、40个tRNA基因和88个蛋白质编码基因(表1和3)。此外,14个tRNA基因、8个rRNA基因和15个蛋白质编码基因在IR区域被复制(图1)。LSC区包括62个蛋白质编码区和25个tRNA基因,SSC区包含13个蛋白质编码基因(表A1)。

  表1 五种栎属叶绿体基因组特征综述

  


  表3 对麻栎Cp基因组中注释的基因进行了排序


  表A1麻栎叶绿体基因组中的基因数目


  发现23个包含内含子的基因,包括15个蛋白质编码基因和8个tRNA基因(表4)。

  表4麻栎叶绿体基因组外显子和内含子基因的内含子长度


  21个基因(13个蛋白编码基因和8个tRNA基因)包含一个内含子,2个基因(ycf 3和clpP)包含两个内含子。trnK-UUU内含子最大(2505bp),trnL-UAA内含子最小(483bp)。

  有研究表明,ycf 3是光系统Ⅰ复合物稳定积累所必需的。因此推测,麻栎的ycf 3内含子增益可能有助于进一步研究光合作用演化的机制。


  2.基因组结构的比较分析

  叶绿体序列通常用于测量物种内部的遗传多样性、物种间的基因流动以及分离的姐妹物种祖先种群的大小。因此,有必要了解物种间叶绿体的差异。将麻栎的叶绿体基因组和栓皮栎,匙叶栎,板栗,猴面柯,米心水青冈的叶绿体基因组进行比较。米心水青冈有最小的Cp基因组,最大的IR区(51,784 bp),匙叶栎有着最大的Cp基因组(表1)。

  为了验证基因组差异的可能性,以栓皮栎为参考,用mVISTA程序计算了6种叶绿体DNA的序列同源性(图2)。


  排列上方的灰色箭头和粗粗的黑色线条表明了基因的方向。y轴表示从50%到100%的相似性。


  Fig.2以栓皮栎叶绿体基因组为参照,对6个物种进行完整的叶绿体基因组比较

  比较结果表明,LSC区域比SSC和IR区域具有更大的差异,而非编码区域的差异高于编码区。F.engleriana(米心水青冈)的完整Cp基因组序列与其他五个植物有很大的不同。

  六个物种中Cp基因组的变异主要发生在LSC和SSC区域,部分基因的编码区域存在显著差异,在非编码区中差异最大的是基因间区域基因(图A2)。

  Fig.A2 6个物种的完整Cp基因组变异百分比


  IR区的收缩和扩张在演化中起着重要的作用。它们是常见的进化事件,也是叶绿体基因组大小变化的主要原因。它们也可能导致被子植物质体基因组长度的变化。图3详细比较了上述六种壳斗科植物Cp基因组的IR-SSC和IR-LSC边界。


  基因用彩色盒子表示。基因和边界之间的差距用碱基长度(bp)来表示。基因的延伸在方框的上方。


  Fig.3叶绿体基因组的大单拷贝(LSC)、小单拷贝(SSC)和反向重复(IR)区比较

  结果表明,在栓皮栎属中,IR区相对高度保守--栓皮栎Cp基因组中rpl2基因在LSC/IRB边界处由IRB向LSC转移62 bp,在IRA/LSC边界处由IRA向LSC转移62 bp。与属内其他物种相比,IRA/SSC区域范围变化较大。ycf 1基因跨越SSC/IRB区,SSC/IRA连接位于所有壳斗科植物叶绿体基因组的ycf 1区,并根据基因组以不同的长度延伸到SSC区。


  3.长重复序列和SSR分析

  在重复序列结构分析中(表5),在麻栎Cp基因组中检测到31个正向重复和22个反向重复。


  表5麻栎叶绿体基因组中的长重复序列


  这些重复大多在19~46bp之间。最长的反向重复是46bp,位于LSC区域。在LSC、SSC、IR区域分别发现了35个,18个和8个重复。7个反向重复被发现在IR区,一个和ycf1基因相关,一个和trnV-UAC和trnA-UGC基因相关。基因间间隔的大部分重复序列分布在LSC区域。10个重复序列分布在SSC区域,其中只有4个位于基因间隔区。

  由于叶绿体特异性SSR是单性遗传的,易发生滑脱链错配,因此常用于野生植物的种群遗传学、物种鉴定和进化过程研究。


  表6麻栎叶绿体基因组中的简单序列重复序列(SSRs)


  研究共发现65个SSRs,主要分布在LSC和SSC中,部分分布在IR中。其中单核苷酸SSRs 61个(93.85%),二核苷酸SSRs 4个(6.15%)。与其他栎类相比,麻栎中发现的SSRs种类较少。其中两个SSR属于c型,其他都属于A/T型。还发现12个SSR定位在基因中,其余均位于基因间区。


  4.系统进化分析法

  对25个植物的叶绿体基因组进行了系统发育分析(图4)。采用基于RAxML的贝叶斯推理(BI)方法构建系统发育树,以楸子(海棠果)、醉翁榆为外群。


  Fig.4贝叶斯推断(BI)系统发育树重建,包括基于所有叶绿体基因组的25种植物


  结果表明,值得注意的是,栎属的物种并不构成一个类群。几种常绿树种聚集在一起形成一个类群。中国特有种中,麻栎(Q.acutissima)和栓皮栎(Q.variabilis)是姊妹种,常混在一起;第二个分支分裂成两个子类。F.engleriana排在首位,Q.acutissima似乎与Q.variabilis、Q.dolicholepis和Q.baronii更接近。



  结论

  本研究报道并分析了中国特有的生态树种-麻栎的Cp全基因组。叶绿体基因组的保守性与其它栎属相似。与其它5种栎木的Cp基因组相比,其LSC在4个区域间差异较大,而非编码区发散较高。通过对6个物种间系统发育关系的分析,发现麻栎与栓皮栎有着密切的关系。该树种在壳斗科植物中的发育地位与前人的研究结果基本一致。

  这项研究的结果提供了麻栎的一个完整的叶绿体基因组的组装,这可能有助于未来的遗传学、育种和生物学发现。


  原文链接:https://doi.org/10.3390/ijms19082443