服务热线:18061729102/ 025-85380280
技术支持

文章解读|利用三代测序进行宏基因组学测序揭示口腔噬菌体及其与宿主细菌的相互作用

发布日期:2021-06-07 浏览次数:169


发表期刊:Nature Communications

IF:12.121

关键字:宏基因组学,生物信息学,人类口腔噬菌体,长读长测序,CRISPR免疫


        文章通过使用PromethION对人类唾液进行了长读宏基因组测序的研究。研究运用二代+三代测序结合的手段,分析整合了每个样本>30 Gb的PromethION和HiSeq数据,确定了数百个病毒感染群,找到了与之前研究不聚类的噬菌体和前噬菌体。分析发现,大多数的噬菌体/前噬菌体中含有远距离同源的耐药性基因。泛基因组分析显示噬菌体/前噬菌体具有显著的多样性。以及存在于人类唾液中的口腔噬菌体处于选择压力下来逃避CRISPR免疫。研究证明了长读宏基因组学利用PromethION揭示噬菌体及其与宿主细菌的相互作用的能力。


材料方法




1.在“最可信”和“可能”水平上找到了与之前研究不聚类的噬菌体和前噬菌体


        使用VirSorter进行了计算分类,在寻找病毒“标志”基因的基础上识别了噬菌体和前噬菌体基因组序列,;同时应用了Contig注释工具(CAT)进行注释分类。在4个样本中,CAT分类为病毒的contigs数量只有10个,所有这些样本都被VirSorter包括在内。利用DNA病毒数据库(IMG/VR v2.0)口腔病毒序列对contigs进行了基因组聚类。在数据库中未与病毒序列聚类的被认为是新病毒,其数量和比例按“最自信”和“可能”类别划分。


表1. 每个样本中识别的病毒序列的数量和比例,按“最可信”和“可能”的噬菌体和前噬菌体分类


2. 在IMG/VR v2.0数据库中已知的未与病毒序列聚类的“最可靠”和“可能”噬菌体中,发现scaffold及其宿主基因组环境与短读片段组装的病毒序列相比有很大改善




图2.与短读片段组装的病毒序列相比,改进的支架结构和宿主基因组环境


        2a. 高覆盖率的口腔噬菌体显示改善。顶部:基于短读映射的覆盖图。矩形为前噬菌体覆盖区域,Contig预测宿主分类为链球菌。橙色箭头:一个CDS编码的整合酶。绿色箭头:一个编码烯醇化酶的CDS。噬菌体形态发生的基因聚集在与图中对齐的区域相对应的区域(约48 - 60kb,用紫色水平线表示),根据tBLASTx计算鉴别百分比。



        2b. IMG/VR v2.0数据库中“最可信”和“可能”前噬菌体及其对应病毒序列长度差异的分布箱线图。左派和右派的框表明第25和第75百分位,水平线表示中位数,中间的菱形显示平均水平,结果表明长读长组装的前噬菌体比短读长组装的对应病毒序列要长。



3. 通过PHANOTATE进行迭代搜索蛋白比对出链球菌噬菌体/前噬菌体群体和抗菌素耐药基因

        PHANOTATE通过UniProt检测远程同源性在4个样本中鉴定出129个噬菌体/前噬菌体。其中61.7%未与原有病毒序列聚类。基于具有相似性的基因组蛋白质显示显著的组中包含了21.7%高覆盖率的噬菌体/前噬菌体,使用更大的蛋白质组学树(包括其他参考病毒序列)对该小组进行分析,发现链球菌噬菌体/前噬菌体在Siphoviridae之间的独特位置(图3)。对基因进行检测发现,其中86%编码了抗菌素耐药性基因的远距离同源蛋白(保守的结构相似性但序列相似性有限),极大概率与基因序列同源。


        图3.蛋白质组学树显示的一组高覆盖率的口腔噬菌体/前噬菌体。外环:宿主 内环:病毒科 右上方的红线表示在四个样本中发现的28种噬菌体组成的一组


4. 携带噬菌体标记基因的巨型噬菌体/前噬菌体在预测分类中没有重叠,表明它们不局限于人类口腔微生物群中的特定系统发育群

        研究发现了6个基因组大于200 kb的噬菌体和5个巨型(>200 kb)前噬菌体。这种巨型噬菌体(大小为>200 kb)以前曾在大约20个宿主细菌属中发现过,最近开始在整个地球生态系统中被发现。在无噬菌体标记基因contig中发现其有与质粒相似的作用,对预测的质粒运用PHANOTATE发现13.2-32.6%的基因有功能注释,这些基因与上面检查的高覆盖率的口腔噬菌体/前噬菌体相似,在67%携带噬菌体标志基因的噬菌体/前噬菌体中发现了抗菌体耐药基因的远程同源。

表2. 检测到的巨型噬菌体和前噬菌体


5. 对所有已鉴定的病毒序列进行泛基因组分析,以创建基因存在或缺失矩阵,显示出显著的多样性

        在115,621个不同的基因(即矩阵中的行数)中,只有0.3%的基因是“核心基因”,在所有四个样本中,其中86.4%为单基因。用与泛基因组分析兼容的标准注释程序Prokka对309个核心基因进行了假设注释,占94.8%。使用HHblits工具进行了蛋白质迭代搜索,在309个样本中,检测到301个远距离同源蛋白。



图4.口腔噬菌体/噬菌体基因编码特征

4a. 四个样本中所有基因的数量。核心(4/4)基因为橙色,而单基因为灰色

4b. 核心基因的分解。每个类别的基因数量显示在饼状图中



6.目前存在于人类唾液中的口腔噬菌体可能处于逃避CRISPR免疫的选择压力下

        在我们的研究中,通过对IMG/VR v2.0数据库中口腔病毒contigs的间隔区进行BLAST搜索得到的比例为略高于上限(19%)。一项关于人类肠道微生物的研究报告显示,当使用IMG/VR v2.0数据库时,该比例为23.5%,与实验结果相吻合。当对每个样本中所有组装的病毒contigs进行BLAST搜索时,该比例显著降低(1.8%)。


        图5. CRISPR间隔区分布。5a. 细菌contig、噬菌体区和前噬菌体区CRISPR序列中发现的间隔区数量。5b .IMG/VR v2.0数据库中位于口腔病毒contigs中的间隔区数量(左)和每个样本病毒体中的间隔区数量(右)



1. 使用PromethION进行长读测序将促进在各种环境中发现更多这样的巨型噬菌体/前噬菌体。

2. 在检查从长读序列中组装的病毒contigs的新颖性时,如果VirSorter提取的噬菌体序列不是完全正确,而是包含宿主基因组序列,那么用数据库中的病毒序列进行基因组聚类的结果应该注意噬菌体的解释。

3. 当我们检查的百分比读取映射在预测噬菌体时需要通过实验来检验这些预测的噬菌体是否真的位于宿主细菌染色体的外部,这需要富集病毒粒子和病毒组测序。

4. 我们的深层(每个样本>30 Gb)长读宏基因组测序成功地重建了罕见病毒的大基因组片段,但其低覆盖率的contigs可能是错误的,这一点有待进一步分析。




        文章基于人类唾液样本研究,进行了PromethION长读长测序和HiSeq测序,处理了(>30Gb的数据);将长读长和短读长进行混合组装和纠错,每个样本平均鉴定出3802个病毒序列contigs ;文章发现长读长测序技术可以改善组装效果,改善的contigs 能够将噬菌体分类,可以挖掘更多前噬菌体与宿主的信息。本文预测的噬菌体和前噬菌体中分别有40.0–56.3%和49.0–72.5%是新颖的,并在口腔环境中首次鉴定出多达10个大型口腔噬菌体/前噬菌体。研究为使用PromethION同时研究噬菌体和宿主细菌,进一步探索不同环境下的病毒暗物质提供坚实的基础。