科研 | The ISME Journal:长读长宏基因组测序技术揭示南极土壤未培养微生物的生物合成潜力

2021
12/13

+
分享
评论
微生态
A-
A+

编译:微科盟Moon,编辑:微科盟茗溪、江舜尧。导读  日益严重的抗生素耐药性问题(antibiotic resistance)激励着人们探索未培养细菌作为新型抗菌药物的来源。以往对不同环境样品的P

编译:微科盟Moon,编辑:微科盟茗溪、江舜尧。

导读  

日益严重的抗生素耐药性问题(antibiotic resistance)激励着人们探索未培养细菌作为新型抗菌药物的来源。以往对不同环境样品的PCR扩增分析和短读长测序(short-read sequencing)研究表明,宏基因组数据中存在多种生物合成基因簇(BGCs,biosynthetic gene cluster),表明它们有可能合成新的功能化合物。然而,由于短读长测序的技术限制,从未培养的细菌中复原全长BGC序列仍然是一个挑战,因而很难完整评估BGCs的多样性。在这项研究中,研究者利用长读长测序技术(long-read sequencing)和基因组数据挖掘方法(genome mining)复原了1400多个几乎全长的BGCs,揭示了南极洲Mars Oasis未培养土壤细菌BGCs的丰富多样性。高度分化的BGCs不仅大量存在于酸杆菌门(Acidobacteriota)、疣微菌门(Verrucomicrobiota)和芽单胞菌门(Gemmatimonadota),而且还存在于放线菌门(actinobacterial)的酸微菌纲(Acidimicrobiia)和嗜热菌纲(Thermoleophilia)以及γ-变形菌纲(gammaproteobacterial)的UBA7966目。后者还可能包含一个新RiPPs(ribosomally synthesised and post-translationally modified peptides)家族。这项研究的发现强调了未得到充分研究的物种的生物合成潜力,以及在一些似乎得到广泛研究的物种实际上还存在尚未被发现的谱系。同时该研究还表明了长读长宏基因组测序作为一种具备前景的研究方法,可以用于获取未培养微生物特定代谢物基因簇的未开发基因库。

论文ID

原名:Biosynthetic potential of uncultured Antarctic soil bacteria revealed through long-read metagenomic sequencing

译名:长读长宏基因组测序技术揭示南极土壤未培养微生物的生物合成潜力

期刊:The ISME Journal

IF:10.302

发表时间:2021.07.12

通讯作者:Valentin Waschulin

通讯作者单位:英国华威大学生命科学学院

DOI号:10.1038/s41396-021-01052-3

实验设计

实验设计图  

采样地点图:标注出Mars Oasis的南极半岛地图。左上角小地图为在南半球夏天拍摄的采样点航拍图(原文中图1A)。  

结果

1. BGCs的土壤多样性、物种分类和分箱结果

Nonpareil估计用于长读长(long reads)组装的44.4Gb数据量的丰度加权覆盖度(abundance-weighted coverage)为85.3%。为了达到95%和99%的覆盖度,预计分别需要250Gb和1.6Tb测序数据。α-多样性预测Nd为21.6。采用CONCOCT,MaxBin2和MetaBAT2对重叠群(contigs)进行分箱(binning),并用metaWRAP优化从而获得consensus bins并用GTDB-Tk进行分类。这一过程获得114个经CheckM质检完整度大于50%而污染度小于10%的细菌bins,这114个bins共包含了278个BGCs(表1)。由于分箱仅获得278个BGCs,又采用了另一个基于重叠群的分类方法。利用CAT和GTDB r89蛋白质数据库对所有重叠群进行分类,这种方法可以在门层面上分出93%的含BGCs重叠群(图1B,C)。对269条分箱获得和CAT分类获得的含BGC重叠群进行交叉验证,结果表明,总共有3条在不同层面存在争议(纲、目、属水平各一条)。在2892条分箱或CAT分类获得的重叠群中,52条(1.7%)用CAT在纲水平分类不一致。这表明,使用CAT对含BGC重叠群分类的错误率低,但不能忽视,而基于分箱的分类方法更可取。

 图1. B.重叠群和长读长的系统发育分类。C.使用分箱和CAT分类方法对含BGC的重叠群进行分类。

2. 多种全长BGCs的复原

使用antiSMASH(版本5.1)对修饰后的基因组组装序列进行分析。在1350条重叠群中一共含有1417各BGCs(表1),其中564个BGCs位于重叠群的两端边缘位置,因此被认定为不完整的基因簇,而剩下的853个(60.2%)BGCs则是全长的BGCs。数量最多的BGCs种类分别是萜烯类(terpenes,27.2%),NRPS(15.7%)和细菌素(bacteriocin,10.1%)。其中,萜烯类主要是一部分亚类。在401个萜烯类BGCs中,321个包含一个鲨烯/茄红素合成酶(squalene/phytoene synthase)Pfam 结构域(PF00494),这表明这些BGCs的产物是三萜烯或四萜烯。此外44个BGCs含有鲨烯/何帕烷类环化酶(squalene/hopene cyclase)结构域(PF13294),39个BGCs含有类胡萝卜素合成酶(carotenoid synthase)结构域(PF04240),47个BGCs含有番茄红素合成酶(lycopene cyclase)结构域(PF05834)。

表1. 原始序列、组装序列、BGC挖掘和分箱信息统计。

将近一半核糖体合成和翻译后修饰肽(RiPPs,ribosomally synthesised and post-translationally modified peptides)是在同一个含有甲烷杆菌素-样(methanobactin-like)DUF692结构域的样本中发现的。然而,并没有发现疑似甲烷杆菌素BGCs的基因簇。

在含BGCs的重叠群中有63%的蛋白质被认定为长度太短,这可能是因为这种计算方式受UniProt参考数据库不含有此次研究复原的未培养细菌的代表蛋白质的影响。但是,可以明显观察到由插入或缺失(indel)导致的ORFs的片段化,尤其是在NRPS和PKS BGCs中,整个大片段合成基因被分解成几个片段。

3. 长读长测序和GTDB可提高环境BGCs的分类效果

 利用GTDB蛋白质数据库代替NCBI非冗余蛋白质数据库可将含BGCs重叠群在目层面上的分类正确率从36.8%提高至71.8%,这种差异主要是由于NCBI数据库中不包含MAG来源目的BGCs,例如UBA7966。但是,GTDB数据库又远小于NCBI非冗余数据库,许多MAG来源的支系(尤其是物种分类等级更低的支系)在GTDB数据库中没有很多参考序列。为了避免错误分类,尽管重叠群被分为更低的分类层级,此次研究在纲和目的分类层次进行分析。

为了评估长读长测序在BGCs检测和分类中的优势,输出结果与BiosystheticSpades进行了比较,后者可以根据不明确组装图和模块性的先验信息用短读长序列组装NRPS和PKS。用BiosystheticSpades处理28Gb短读长序列,一共预测到228个NRPS和PKS BGCs,其中61个长度大于5 kb,5个NRPS BGCs大于30 kb。除此之外,202个其他BGCs从其他重叠群预测得到,其中96.7%的BGCs位于重叠群的两端位置,也就是说非全长的BGCs。的确,430个BiosyntheticSPAdes BGCs中有392个可以与255个长度长BGCs利用blastn进行比对(E-value小于1E-90),表明两种方法组装得到的是相同BGCs,但是在短读长组装中呈现片段化的结果(附图1)。在NRPS和PKS BGCs中,即使是最高覆盖度的重叠群(大于120×)上的BGCs也分成了两到三个重叠群。使用相同的分箱和CAT方法的分类正确率也低。尽管BiosyntheticSPAdes预测得到的BGCs总数很大,输出结果的实际可利用率和可解释性却比较低,因为无法评估结果的完整性、基因簇的边界和可能的修饰基因,而且系统发育分类的正确率也降低了。

4. 在特定代谢物生产者细菌(门水平)中发现高度趋异的BGCs

 统计不同BGC类别和不同门细菌的BGCs数可以发现3个重要的生产者细菌门包含的BGCs大于总数的60%(图2A),分别是放线菌门(Actinobacteriota)、变形菌门(Proteobacteria)和拟杆菌门(Bacteroidota)。酸杆菌门(Acidobacteriota)和疣微菌门(Verrucomicrobiota)占了总BGCs数的20%,而其他门细菌则占12%,剩余的7%在门水平无法被分类,尤其是20%的NRPS在门层次上无法被分类。没有发现古菌BGCs。

为了计算它们与一系列之前计算的GCFs的距离(d),对1417个BGCs用BIG-SliCE的query模式进行分析。结果显示,1417个BGCs中有845个(59.6%)的d大于900,表明这些BGCs与GCF远缘相关,55个d大于1800,意味着是关系非常远的BGCs。每个门细菌中的距离跨度都很宽,这表明每个门细菌中都含有与已知BGCs关系很近和很远的BGCs(图2B)。不同细菌门之间距离中位数存在明显差异,其中变形菌的新颖度(novelty)最高(d=1227),Planctomycetota的novelty最低(d=742)。但是,整体的d值受不同类别BGCs得分不同的影响。例如,NRPS/PKS BGCs比萜烯类和细菌素类BGCs的分值要高。单个BGCs类别的排名分析表明,拟杆菌门的高分值受到NRPS量大(图2C)以及萜烯类和细菌素的量少(图2E,F)的部分影响。其他门细菌在单个BGC类中分值最高可证实这一结论。对于NRPS BGCs而言,Gemmatimonadota,酸杆菌门和疣微菌门的d值最高(图2C)。同时,对于萜烯类BGCs而言,Gemmatimonadota的d值也最高(图2E),而酸杆菌门的拉索普肽(lassopeptides)、arylpolyene和PKS的分值也高(图2G,H,D)。此外,位于重叠群两端位置的BGCs的分值往往更低。为了检测组装覆盖度低和插入缺失错误会不会导致高估d值,重叠群覆盖度和正确大小的ORF百分比(由ideel计算)对d值进行绘图。d值与ca 10之前的覆盖度存在正相关,表明在低覆盖度时计算的d值偏低。相似地,对于低于20%正确大小ORFs的重叠群而言,其正确大小ORFs百分比与d值存在轻微的正相关关系。如预期所示,覆盖度与正确大小ORFs百分比存在强正相关关系(附图2-4)。

 图2. 门水平的BGC分布和BiG-SliCE距离。A.门层面的BGC分布和BGC类型。B.BGCs的BiG-SLiCE距离,黑色虚线为d=900位置,灰色虚线为d=1800位置。C-H.不同类型BGC的BiG-SLiCE距离,每个点代表一个BGC,橙红色表示不处于重叠群边缘的BGC,蓝色表示处于重叠群边缘的BGC。

5. 酸杆菌门中的BGCs

分析酸杆菌门各个纲中的BGCs(图3A)可以发现萜烯类BGCs的数目最大,此外还有PKS,NRPS,拉索普肽和细菌素等合成基因簇。各个纲中,Pyrinomonadales和Vicinamibacterales中BGCs占据了60%多的酸杆菌门BGCs。

BiG-SCAPE分析结果显示,BGCs主要在不同纲内聚类(附表1),而在应用的阈值下没有科含有MlBiG。酸杆菌门细菌中含有大量拉索普肽BGCs,其中16个可以分成2个GCFs。NRPS-样BGCs的数目也很多,而且,Vicinamibacterales中的一个NRPS-样BGCs家族跟粘球菌(Myxococcus xanthus)中的VEPE BGC(MIBiG BGC0000871)具有同源性。除此之外,7个NRPS/PKS BGCs的基因长度超过20kb,其中最长的是长达89kb的NRPS和PKS巨合成酶基因。最长的酸杆菌门重叠群长度有1.5Mb,含有3个BGCs:即一个PKS,一个萜烯类和一个NRPS/PKS嵌合的基因簇(图3B,C)。BGC1(d=1397)含有一个不完整单模块的NRPS、一个不完整PKS、转运蛋白基因以及一个依赖TonB受体蛋白基因,表明其可能有铁载体(siderophore)的功能。BGC2(d=1103)含有一个鲨烯/茄红素合成酶基因和几个潜在的修饰酶(tailoring enzyme)。BGC3(d=1977)含有一个完整的NRPS 、一个不完整的NRPS和一个不完整的PKS结构域。而在BGC中可以观察到一些空缺,这意味着可能是测序错误,造成基因发生截断和结构域丢失。

 图3.  酸杆菌门BGCs在各个纲中的分布以及一条酸杆菌重叠群的BGC图谱。A.酸杆菌门中不同类型BGC和不同纲细菌的BGC数目。B.一条酸杆菌重叠群的图谱及其上的BGCs。C.BGC1/2/3的可能基因功能聚类图谱。基因功能用BLASTing搜索NCBI非冗余蛋白质数据库和antiSMASH模块预测而来。同源蛋白质的详细信息可从附件中获取。

6. 疣微菌门中的BGCs

分析酸杆菌门各个纲中的BGCs(图4A)可以发现,大部分BGCs都是萜烯类化合物合成基因簇,此外还有芳基多烯类化合物(arylpolyene)、PKS、NRPS和梯形烷(ladderane)等。疣微菌门中BGCs数目最多的纲是Opitutales、Pedospherales和Chtoniobacterales。与酸杆菌相比,疣微菌门中的BGC无法明显地聚类为保守GCFs(附表2),仅有一个NRPS/PKS BGC与MIBiG聚在一起。最长的疣微菌门重叠群长度达到2.6 Mb,含有5个BGCs,其中两个是NRPS-PKS基因嵌合体,其基因长度超过20 kb(图4B,C)。BGC1(d=1479)含有一个梯形烷-三型-氧酰基-(酰基载体蛋白)合成酶(ladderane-type 3-oxoacyl-[acyl-carrier-protein] synthase)。BGC2(d=1305)含有4个NRPS,其中插入了一个PKS。BGC3(d=673)含有一个squalene-hopene环化酶,表明其可能有藿烷类化合物生物合成功能。BGC4(d=1142)包含一个查尔酮/芪类化合物合成酶基因(chalcone/stilbene synthase)。BGC5(d=1340)包含一个PKS和5个NRPS,但是第三个合成酶基因有一个截断的A结构域,antiSMASH HMM NRPS-A_a3只比对到ORF ctg423_1968末端的50bp左右位置。这可能是由于测序错误引起的,即一个插入缺失突变引发移码发生,产生了一个提前终止密码子。的确,ctg423_1968和含ctg423_1970的PCP-domain之间缺口位置核苷酸水平的BLAST(Basic Local Alignment Search Tool)结果表明比对到了已知的A结构域。但这也不能排除可能是发生了假基因化(pseudogenisation)。

 

图4. 疣微菌门BGCs在各个纲中的分布以及一条疣微菌重叠群的BGC图谱。A.疣微菌门中不同类型BGC和不同纲细菌的BGC数目。B.一条疣微菌重叠群的图谱及其上的BGCs。C. BGC1-5的可能基因功能聚类图谱。基因功能用BLASTing搜索NCBI非冗余蛋白质数据库和antiSMASH模块预测而来。X轴代表碱基对。同源蛋白质的详细信息可从附件中获取。

7. 放线菌门和变形菌门中未培养探索纲和目细菌具有巨大的生物合成潜能
7.1 放线菌门: 酸微菌纲(Acidimicrobiia)和嗜热油菌纲(Thermoleophilia)

放线菌门细菌(共335 个BGCs)中有许多在目水平无法进行分类的BGCs,因此他们在纲水平进行分析(图5A)。放线菌纲(有114个BGCs)中有一些属富含BGCs,例如链霉菌属(Streptomyces)和假诺卡菌属(Pseudonocardia),因此其BGCs占比也较大。酸微菌纲(有90 个BGCs)有Illumatobacter、Microthrix和其他一些属。嗜热油菌纲细菌中(有95个BGCs)除未培养的之外,还有Solirubrobacter、Patulibacter等属,包含许多细菌素和β-丙内酯(betalactone)生物合成基因簇。这些纲中的BGCs无法在更低物种分类层级进行分析,表明在放线菌门中许多尚未进行研究的菌株含有多种BGCs。

值得注意的是,此次分析复原了酸微菌门中IMCC26256的一个环状基因组,长度为3.3Mb,含有2个BGCs(图5B,C)。其中萜烯类化合物BGC(d=1398)含有一个鲨烯合成酶结构域,一个番茄红素环化酶和聚异戊乙烯合成酶(polyprenyl synthetase),表明其可能具有色素合成功能。Cai-A相关BGC(d=1869)含有一个CaiA相关的酰基辅酶A脱氢酶(acyl-CoA dehydrogenase)。BLAST结果表明可能是其他跟小有机酸、糖和核苷代谢相关的基因。

此次研究中发现了两个包括萜烯环化酶、甲基转移酶和/或P450s在内的萜烯类化合物合成酶家族,与已知的土臭素(geosmin)和2-甲基异莰醇(2-methylisoborneol)具有相似性。除此之外,在Streptomyces spp.中检测到一个BGC,它的重叠群的边缘位置含有一个LmbU-样基因。BiG-SCAPE分析表明,放线菌门细菌中BGCs主要以纲聚类,在设定的阈值下可发现一个羊毛硫肽化合物(lanthipeptide)BGC与MIBiG BGCs归为一类(附表3)。

图5. 放线菌门BGCs在各个纲中的分布以及一条放线菌重叠群的BGC图谱。A. 放线菌门中不同类型BGC和不同纲细菌的BGC数目。B.一条放线菌重叠群的图谱及其上的BGCs(目IMCC26256)。C. BGC1/2的可能基因功能聚类图谱。基因功能用BLASTing搜索NCBI非冗余蛋白质数据库和antiSMASH模块预测而来。X轴代表碱基对。同源蛋白质的详细信息可从附件中获取。

7.2 变形菌门:未培养嗜甲烷菌UBA7966(纲)是一种专门化的代谢物生产者

变形菌门中目水平的BGCs分析结果表明,其中BGCs数量最多是Burkholderiales,有116个BGCs,然后是发现有96个BGCs的UBA7966目(图6A)。UBA7966 BGCs种类很多,包括萜烯类化合物、细菌素、膦酸酯、NRPS杂合体、NRPS样化合物和芳基多烯类化合物。其中,UBA7966中NRPS样化合物和芳基多烯类化合物BGCs的丰度明显高于其他变形菌目的其他目细菌。以目来看,UBA7966重叠群平均覆盖度达到26×,高于总平均覆盖度10.2×,表明其丰度很高。UBA7966重叠群的总长度达到53Mb,这意味着存在若干个基因组。

UBA7977目未经实验室培养,仅含有一个UBA7966一个科,其又下分为UBA7966和USCγ-Taylor两个属。Bin.3属于UBA7966科但不属于其下的两个属,而所有CAT-分类的重叠群都属于USCγ-Taylor属的唯一一个种:USCγ-Taylor  sp002007425。USCγ-Taylor属来源于南极洲泰勒谷的一个甲烷氧化土壤宏基因组中推定出来的嗜甲烷宏基因组组装基因组(GCA_002007425.1)。但是,GTDB数据库中UBA7966参考基因组少,意味着这只是大概的分类。UBA7966最近的两个目,Beggiatoales和Nitrosococcales,都有成员参与甲烷营养、硫循环、氨氧化和矿质化能营养(chemolithotrophy)和化能自养(chemoautotrophy)等代谢。在所有UBA7966的重叠群中,发现了4个pmoCAB操纵子,其中pmoA与USCγ-Taylor的pmoA具有92.9%-96.8%的相似性,这表明,除了USCγ-Taylor的甲烷营养方式,UBA7966目的其他成员也可能具有类似的生活方式。

当设定阈值为0.7用BiG-SCAPE进行分析时,膦酸酯(中位d=1412)、NRPS/NRPS样化合物(中位d=1262)和细菌素可能形成保守GCFs,而其他GCFs跟其他变形菌目相同。有96个BGCs的UBA7966与已知专门化代谢物生产Burkholderiales目细菌有数目相近的BGCs。但是,所有UBA7966 BGCs中,仅有一个纲的BGCBiG-SLiCE距离值比Burkholderiales低,其余均较高,表明UBA7966中有更多新BGCs(附图5)。

UBA7966可能具有甲烷营养能力,意味着可能存在甲烷氧化菌素(methanobactin),但是此次分析数据集中没有发现与已知甲烷氧化菌素相关的BGCs。另一方面,从这批数据中发现了存在一定量的含DUF692 BGCs,并分为3个GCFs。DUF692是一个含有多种成员的蛋白质家族,除已知参与甲烷氧化菌素代谢之外,大部分功能都是未知的。分析三个含DUF692的近缘GCFs发现,FAM_02526(2个BGCs),FAM_02384(3个BGCs)和FAM_02418(6个BGCs)都含有一个短(约240bp)ORF(图6B,D),其后跟一个含DUF692结构域蛋白质和一个含DUF2063结构域蛋白质。除此之外,在前体多肽上游还有一个阳离子逆向转运蛋白。这三个蛋白质家族的不同之处在于其核心簇周围的基因(图6B)。将翻译后的11个短ORF用Clustal Omega进行比对并在EBI参考蛋白组数据库中以1E-10为阈值进行HMM搜索,搜出来的290条蛋白质序列加上原来的11条ORF序列再进行比对并用skylign.org进行HMM可视化。结果显示,除了N端40个氨基酸位置内一段保守的6个半胱氨酸(有时跟着甘氨酸)和C端略微保守的疏水性区域以外,序列整体的保守程度很低(图6C)。这可能代表一种前体肽段,其中6个半胱氨酸区域是其核心区域。

UBA7966同样含有一些大BGCs,例如长度大于20kb的NRPS/NRPS样BGCs,其中基因长度达到56kb的PKS BGCs和NRPS 基因,同时,后者还跟一些具有MIBiG BGCs构成了BiG-SCAPE GCF,这些MIBiG BGCs 共有一小部分肽段,并且后边有一些丙二酰单元。

图6. 放线菌门BGCs在各个纲中的分布、BGC图谱以及UBA7966的DUF692 BGC分析。A.不同类型BGC和不同纲细菌的BGC数目。B.三个γ-变形菌的含DUF692的BGCs代表序列的聚类布局:contig_12391- FAM_02418, contig_14956 - FAM_02526 and scaffold_15362 - FAM_02384。C.301条前体肽隐马尔科夫模型(HMM)的序列特征。D.BiG-SACPE分析得出的相似性网络:棕色: FAM_02384, 蓝绿色: FAM_02418, 绿色: FAM_02526.。

8. 其他未被充分探索的门细菌中的少量BGCs

除上述发现,此次研究还在一些其他细菌中发现了少量BGCs,如在Gemmatimonadota中有31个BGCs,Planctomycetota中有29个BGCs,Myxococcota中有22个BGCs,Myxococcota中有9个BGCs,Methylomirabilota中有5个BGCs,Bdellovibrionota_B中有8个BGCs,Elusimicrobiota中有4个BGCs,Armatimonadota中有4个BGCs,Binatota中有3个BGCs(图7A,附表5)。

一个长Gemmatimonadota重叠群(1.5Mb,图7B,C)包含2个BGCs:一个萜烯类物质BGC(d=998)和一个NRPS/PKS BGC(d=1423)。BGC1包括一个茄红素和几个相似氧化酶,BGC2包括6个PKS合成酶和2个NRPS以及一些TonB受体修饰酶,表明其产物可能发挥铁载体的作用。

 图7. 一些BGC数目少的细菌门的BGCs分布和一条Gemmatimonadota重叠群的BGCs图谱。A.BGC数目不高于31的细菌门中的BGC分布。B. 一条Gemmatimonadota重叠群的BGC图谱。C. BGC1/2的可能基因功能聚类图谱。基因功能用BLASTing搜索NCBI非冗余蛋白质数据库和antiSMASH模块预测而来。X轴代表碱基对。同源蛋白质的详细信息可从附件中获取。

讨论

1. 宏基因组学揭示未被充分研究细菌的生物合成潜能 

在此次分析的数据集中,发现了一些之前被认为通常与特定代谢物无关的细菌含有大量BGCs。以往研究报道了酸杆菌门和疣微菌门细菌中多种新NRPS和PKS。而这项研究表明在未被开发的细菌中不仅有NRPS和PKS,还有多种其他新的BGCs,例如拉索普肽和细菌素等。尽管Crits-Christoph等强调了Blastocatellia和Acidobacteriales两个纲细菌中两个酸杆菌MAGs,而在这次分析中Blastocatellia和Vicinamibacteria才是酸杆菌BGCs的主要来源。除此之外,在其他广泛分布的细菌门中也发现了许多BGCs,例如Patescibacteria,Gemmatimonadota和Armatimonadota。Binatota是Chuvochina等在土壤MAGs中发现的,没有培养的代表菌株。Binatota中含有三个生物合成基因簇(2个NRPS和1个萜烯类化合物)。就目前所知,这是第一次对Binatota中BGCs进行研究。此次研究还在未开发放线菌门的两个纲(Acidimicrobiia和Thermoleophilia)中发现了高度相异的BGCs,这表明放线菌门细菌中一些谱系具有有意思的BGC多样性。

在现有数据集中,59.6%的BGCs d值大于900,3.9%的BGCs d值大于1800,这些数据与BiG-SLiCE数据集中120万个原始BGCs明显不同。尽管序列多样性不能说明化学性质的多样性,一个土壤样本中发现的极大序列差异证明未培养和开发的细菌(尤其是酸杆菌门)中很可能发现新的特有代谢产物。此外,同样值得注意的是,在Mar Oasis发现的巨大生物合成多样性正处于气候变化的危险中:南极洲海洋温度在20世纪50年代到20世纪末间上升了1至3摄氏度,同时,尽管目前这种上升趋势暂时停止,有人预测随着大气层温室气体的累积,21世纪后期会重现相似的气温上升。

此次在细菌中发现的大量萜烯类BGCs可能是由于这些化合物与极端温度下的膜功能和紫外线防护相关。一项类似的以往研究表明,南极洲样本分离细菌中有大量着色细菌。Kautsar等人在公共数据库中细菌基因组中只发现了7.8%的萜烯类BGCs,与此项研究中25%的BGCs数据不符。之前水体和土壤环境短读长宏基因组研究同样发现了大量萜烯类化合物BGCs,分别占到了所发现的BGCs的15%和50%。然而,通过宏基因组分析对BGCs计数这种方法的代表性是可质疑的。例如,在这样研究中,85.3%的丰度加权覆盖度表明,群落中许多丰度较低的成员并没有包括在分析的数据集中。并且,小的萜烯类BGCs比NRPS/PKS BGCs(序列长,重复度高)更容易组装,这也会导致偏倚的产生。

这项研究在UBA7966(一个细菌目)的甲烷营养型细菌中发现了许多BGCs。除可以清除甲烷和/或氨加氧酶需要的铜的嗜铁素样RiPP外,甲烷营养型生物通常与特定代谢物合成不具有相关关系。缺少已知的自然产物可能与培养的难度相关,例如特殊的营养素需求,生长缓慢,以及代谢物合成需要的能量、碳和氮的量等。尽管UBA7966 重叠群中没有发现甲烷细菌素(methanobactin)BGCs,检测3个含γ-变形菌 DUF692结构域的GCFs发现,可能存在保守的六半胱氨酸前体多肽,其中的保守半胱氨酸与ranthipeptides(之前被称为SCIFFs,45个氨基酸中含有6个半胱氨酸)相似。含有DFU692的蛋白质参与甲烷细菌素和TgIA-thiaGlu的生物合成过程,至少一个成员含有2个铁原子,可能充当辅因子(cofactor)的功能。这项研究在UBA7966中发现的所有含DUF692蛋白质的GCF都含有DUF2063蛋白质。DUF2063蛋白质家族大多都未被深入研究,但是其中一个蛋白质的晶体结构表明DUF2063可能是毒力相关的DNA结合结构域,同时,以前的研究也报道过DUF2063和DUF692蛋白共存的现象。其他研究发现Pseudomonas在高钙浓度下的应激反应相关和Legionella金离子和铜离子反应相关的操纵子中发现了这两种相邻的蛋白质。此外,这两个基因还在大气甲烷氧化细菌Methylocapsa gorgona中被发现。因此可以猜想,这些BGCs可能是螯合金属相关RiPP的另一种形式。这6个半胱氨酸可能参与其他RiPP中硫醚键(thioether bonds)、二硫键或羊毛硫氨酸(lanthionine)的形成,也可能直接参与金属配位,后者的一个例子就是称为金属硫因(metallothionein)的小金属结合蛋白。

2. 长读长测序提高宏基因组BGCs挖掘和分类可行性

比较由长读长序列和短读长序列分析而来的结果即可看到长度长测序分析的优势所在,短读长测序方法获得的BGCs数目较少并且物种分类成功率明显更低。经短读长组装的序列(28Gb)比长读长序列(44Gb)少了约1/3,而复原的BGCs更是少了近2/3,并且经短读长序列复原的BGCs大多都不完整。此外,研究表明,长读长宏基因组方法是一个能够达到甚至胜过深度短读长测序结果的有效工具。例如,Cuadrat等人使用一个湖泊群落的5亿条短读长序列进行BGC基因组挖掘,复原了243个BGCs,2200个ORFs,平均而言每个BGCs含有9个ORF,表明这些BGCs很小或者并不完整。另一项规模更大的类似微生物分析复原了1477个BGCs,这项研究并没有给出测序碱基数或BGCs的完整度情况,但BGCs长度中位数为11.9kb,同样表明这些BGCs较小且可能是不完整的。Crits-Christoph等人的另一项研究用草地土壤1.3Tb短读长测序数据进行分析,总共复原了1599个BGCs,其中240个为NRPS/PKS BGCs,且有几个较大较完整。现在这项研究表明,长读长测序方法可以用较少的测序数据即可以获得较多的BGCs实验结果。虽然利用浅度ONT测序获得的重叠群、MAGs和BGCs不如深度短读长测序方法准确率高,但这种方法可以用于描绘复杂环境样本的生物合成能力的总体情况,估计BGCs的多样性,同时还能用于指导分离工作和异质性表达策略。测序的错误率则可以通过提高长或短读长测序序列的覆盖度和优化长读长碱基响应计数来降低。

进一步可以推论,单样本数据中利用CAT的重叠群水平分类比基因组水平的宏基因组学分析更有优势,后者的分箱效率低。Crits-Christoph、Chen、Cuadrat等都采用基因组水平的宏基因组学方法,将重叠群进行分箱再针对分好的箱进行BGCs挖掘。尽管可以将BGCs分至不同的MAGs,但这种方法只能在样本数目多的时候使用,这种情况下由于存在不同的丰度分箱效率高。而此次分析只含有一个样本,分箱的效率降低,会丢失大量BGCs,导致1417个BGCs中有1139个没有被分箱到。基于重叠群的分类方法提供了一种可替代的方法,但这种分类取决于使用的数据库,准确度受到重叠群长度的限制。在此次分析数据中,组装重叠群的N50值大于80kb,表明重叠群长度达到了准确分类的要求,从结果来看,实现了门水平的90%以上的分类。使用源自GTDB的数据库保证了未培养细菌谱系的分类效果,并且基本没有检测到与基于单拷贝核心基因分箱水平的分类结果的矛盾。

结论与展望

此次分析从大范围土壤细菌中一共鉴定出1417个BGCs,其中60%是完整的,这一结果证实并扩展了对难培养细菌生物合成潜力的认识,除此之外,此次研究还发现了一些知名的细菌生产者的一些未培养或未充分开发谱系具有强大的生物合成潜力。

此外,这项研究阐述了ONT长读长测序方法可以从复杂环境单样本数据中实现全场BGCs的组装、鉴定和分类,并且这种方法只用了72Gb的测序数据量,比以往能够复原全长BGCs的深度短读长测序分析相比数据量降低了10倍以上。与需要多样本数的宏基因组分箱方法相比,此次研究方法在目水平的对60%以上的BGCs进行了分类。

即使测序存在一定限制,也可以得到兆(megabase)数量级的重叠群以及一个含有多个BGCs的环状基因组。随着第三代测序技术越来越普遍,从多种环境中探索未培养微生物的生物合成能力也将越发常见。如果联合基于PCR的异质性表达分析技术(如DiPac),就能够克服构建、维持和监测庞大的宏基因组数据库以及高额测序预测的需求,获得宏基因组的自然产物。对于处于危险地位的遥远环境(例如由于气候变化温度快速升高的南极半岛),这些研究策略具有巨大价值。


不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
BGCs,细菌,发现,BGC

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交