科研 | Nucleic Acids Res.:gutSMASH web服务器自动识别来自肠道微生物群的初级代谢基因簇

2021
08/10

+
分享
评论
微生态
A-
A+

目前,gutSMASH能够预测一系列已知和假定的基因簇,这些基因簇在功能上对肠道微生物组以及原则上对任何其他经常出现这种途径的微生物组(包括皮肤和口腔)都很有兴趣。


导读  

来自人类微生物群的厌氧细菌在高浓度下产生大量分子,可直接或间接影响宿主。这些分子的产生主要来源于它们的初级代谢,通常编码在代谢基因簇(MGCs)中。然而,尽管微生物源性初级代谢物很重要,但没有工具可以预测产生这些代谢物的基因簇。因此,我们最近引入了gutSMASHgutSMASH可以预测41种不同的已知途径,包括参与生物能量学的MGCs,也可以预测新途径发现的候选途径。为了使该工具更加用户友好和易于访问,我们在这里介绍了gutSMASHweb服务器,托管于https://gutsmash.bioinformatics.nl/。用户可以输入GenBank程序集,也可以上传FASTAGenBank格式的基因组文件。此外,用户可以启用附加分析以获得对预测MGCs的进一步了解。交互式HTML输出(可在线查看或下载以供离线使用)提供了一种用户友好的方式来浏览功能基因注释,并与参考基因簇以及其他基因组中预测的基因簇进行序列比较。因此,该web服务器为社区提供了一个简化且用户友好的界面,用于分析肠道微生物组的代谢潜力。


 

论文ID


 

名:The gutSMASH web server: automated identification of primary metabolic gene clusters from the gut microbiota

gutSMASH web服务器自动识别来自肠道微生物群的初级代谢基因簇

期刊Nucleic Acids Research

IF:16.971

发表时间:2021.5.21

通讯作者:Michael A. Fischbach & Marnix H. Medema

通讯作者单位:荷兰瓦赫宁根大学生物信息学研究中心&斯坦福大学微生物学系


实验设计


1 gutSMASH工作流概述  
gutSMASH算法基于antiSMASH版本5框架。与   antiSMASH   一样,检测规则用于MGC识别,由构成给定代谢途径特征的Pfam组合组成。Pascal Andreu等人详细描述了检测规则的设计和验证。图1展示了gutSMASH遵循的不同步骤。根据用户指定的细菌基因组,gutSMASH首先通过迭代检测规则识别核心代谢基因。一旦确定了核心基因,每个原簇从每个侧翼延伸到包括辅助基因。然后,如果启用KnownClusterBlast或ClusterBlast选项,gutSMASH将通过将预测基因簇分别爆破到已知和特征化的MGC集合或更广泛的gutSMASH预测MGCs集合来执行MGCs比较基因组分析。接下来,如果需要,gutSMASH可以在功能上将基因分为八个不同的类别:核心生物合成、附加生物合成、运输相关、调节、抗性和其他(已在antiSMASH中发现)以及作为新添加的封装和电子运输相关基因。完成所有分析后,gutSMASH将写入结果并显示交互式输出。此外,web服务器还提供了将所有结果作为ZIP文件下载的选项。  
   
2 交互式输入和输出  
gutSMASH的理想输入是Genbank或EMBL格式的带注释的核苷酸文件。用户可以手动上传GenBank/EMBL文件,或者只需输入GenBank程序集登录号,gutSMASH将自动使用NCBI FTP中带注释的组装基因组。或者,用户可以提供包含一个或多个序列的FASTA文件。在这种情况下,gutSMASH将预测基因并使用Prodigal注释基因组,并使用这些注释运行其余的分析。gutSMASH结果可以在浏览器中在线显示,也可以在本地下载。输出由几个交互式HTML页面组成,允许用户进一步探索结果。概述页面提供了所有预测MGC的信息,包括它们在基因组中的位置以及每个MGC所属的功能类别。主页还包含指向gutSMASH文档页面的链接(https://gutsmash-documentation.readthedocs. io/en/latest/)了解更多详细信息。此外,根据提交作业之前启用的选项,每个预测的MGC可以单独可视化,以便进一步检查其他MGC特定结果。除了HTML页面外,gutSMASH还生成带有KnownClusterBlast/ClusterBlast结果的纯文本文件(更多详细信息请参见“比较基因组分析”一节,以确定远缘同源物并评估MGC分类分布)和每个预测区域的Gen-Bank文件,以供进一步处理。  
   
3 比较基因组分析用于鉴定远缘同源物和评估MGC分类分布  
GutSMASH使用两个不同的数据库,KnownClusterBlast和ClusterBlast,查找与查询同源的MGCs。这种比较分析可以很好地显示MGC在人类微生物群细菌分类群中的分布,深入了解MGC结构(基因含量)的现存变化,并提供有关MGC功能的线索(使用基于同源性的推断)。  
KnownClusterBlast模块旨在识别预测的MGCs和一组减少的具有遗传和生物化学特征的基因簇之间的相似性。为了设计这些已知途径的检测规则,分析了一组简化的已知途径。这些已知功能的MGCs序列包含在KnownClusterBlast数据库中,该数据库目前包含59个条目。因此,勾选KnownClusterBlast按钮允许用户识别哪些MGCs与这些参考MGCs同源并可能与之共享相同的功能,并详细研究其相似性和差异性。鉴于此选项的有用性,默认情况下会启用此选项。  
为了建立集群数据库,可培养基因组参考(CGR)收集,人类微生物组项目(HMP,https://www.hmpdacc.org/ reference genomes/reference genomes.php)参考基因组和414个Clostridiales完整基因组(taxid 186802于2019年10月提供)用作gutSMASH的输入。根据输出结果,将已知的和假定的预测基因簇(总共30883个MGC选择序列)合并形成ClusterBlast数据库。启用ClusterBlast选项时,使用DIAMOND将预测的MGC蛋白质序列与ClusterBlast MGC数据库中的序列进行比较,以确定紧密同源物,使用与antiSMASH相同的程序。根据同源蛋白质对数和累积位分数对基因簇进行排序后,前10个最相似的基因簇(基于最高位分数)将显示在每个预测区域的ClusterBlast HTML选项卡中。可以从可下载的ZIP输出中的ClusterBlast输出文件夹中检索包含相似性分数的同系物的完整列表。  

 
4 功能基因类别注释:额外的pmDBFA类别  
基于初级代谢物结构域的功能注释模块(pmDBFA)(类似于antiSMASH中同源组[SMCOG]的次级代谢物簇)有助于根据基因编码序列中关键PFAM的存在,将预测基因簇内的辅助基因功能注释为不同类别。为了使这些注释对gutSMASH输出进行更有意义的分类,包括两个额外的功能类别:封装和电子传递相关基因。有几个PFAM属于这些类别,例如电子转移黄素蛋白FAD结合域(PF00766)或BMC域(PF00936),它们分别在gutSMASH预测的路径中定期发现。例如,在芳香族氨基酸还原代谢为芳基丙酸盐的过程中,需要一种由etfA编码的电子转移蛋白来还原底物,该蛋白含有电子转移黄素蛋白结构域(PF00766)。相比之下,封装类别的目的是包括参与细菌微囊化的基因,这些基因已被发现对某些反应很重要,例如由丙二醇利用操纵子(pdu)编码的酶催化的反应,封装高浓度下对细胞有毒的途径中间产物。然而,在某些情况下,这些结构域是已知通路检测规则的一部分,因此也被注释为核心基因。当在侧翼区域中找到它们时,它们将在相应的类别中进行注释。  
   
5 代码开发和服务器实现  
gutSMASH服务器,托管在https://gutsmash. bioinformatics.nl/,基于Python3 Flaskweb框架(https://flask.palletsprojects.com)用于结合Jinja模板语言的服务器端逻辑(https://jinja.palletsprojects.com)和用于客户端逻辑的JavaScript。提交界面需要用户提供不同的(其中一些是可选的)输入,包括强制性的有效序列文件或程序集登录ID。对于作业处理,不同的状态被定义为:  
Submitted:任务已成功提交。  
Queued     作业正在等待处理。  
Running:gutSMASH分析已经开始。  
Finished:工作已成功完成。  
Failed:表示发生错误,提示故障处理。  
Notified:作业已成功完成,已通知用户。  
Failed-notified:发生了错误,并且已通知用户。  
为了处理所有作业状态,使用了高级Python调度程序(APScheduler)库。请注意,仅当用户提供电子邮件地址时,状态通知和失败通知才适用。最后,web界面和应用程序之间的通信通过存储作业信息的Redis数据库完成。作为参考,antiSMASH (https://github.com/antismash/websmash/tree/master/websmash)和plantiSMASH (https://github.com/plantismash/webserver)web服务器被用作主要布局和内容的灵感来源。  

 

图1. gutSMASH web服务器的总体工作流程。gutSMASH以GenBank、EMBL或FASTA格式输入细菌基因组序列。首先,该程序迭代检测规则以识别基因簇。然后,如果启用,将预测的MGCs与指定的数据库进行比较,以评估与任何已知路径的相似性,或评估与gutSMASH根据公开的全基因组序列预测的基因簇的相似性。


结果

 

图片摘要

 

在下面的小节中,我们将提供几个示例来说明gutSMASH是如何工作的以及如何解释结果。
 
1 gutSMASH检测已知和推定的人类肠道病原体基因簇
Escherichia albertiiEnterobacteriaceae(肠杆菌科),是一种新兴的肠道病原体。作为大肠杆菌的近亲,某些代谢功能有望共享,而其他功能可能不同。为了揭示其特殊的初级代谢和生物能学,我们使用GenBank汇编登录(GCA 002285455.1)作为gutSMASH服务器的输入,发现该基因组包含24个属于不同MGCs类别的MGC(见图2)。从中,当使用KnownClusterBlast数据库作为参考时,19个基因簇与参考MGCs具有50%或更高的总体基因簇相似性。其中,gutSMASH鉴定了已知肉碱(cai)降解操纵子(100%相同)、丙二醇利用(pdu)操纵子(91%相同)、乙醇胺利用(eut)操纵子(94%相同)和苏氨酸-丙酸降解途径(90%相同)的同源物。启用ClusterBlast选项还可以检查其他细菌是否共享类似的基因簇。正如所料,大多数预测的MGC在其他大肠杆菌基因组中发现。然而,在其他近亲中很少发现亮氨酸还原分支基因簇(62%与亮氨酸还原分支参考基因簇相同),如图2中的聚类结果所示。
 

图2. Escherichia albertii的gutSMASH试验(GCA 002285455.1)。从24个预测的MGCs中,亮氨酸还原分支MGC突出显示为示例(区域1.19)。已知聚类结果表明,该MGC的五个编码基因与亮氨酸还原支参考基因簇基因(总相似度62%)具有相似性,七个编码基因与芳香族氨基酸还原支基因(总相似度58%)具有相似性。ClusterBlast输出表明,该基因簇在数据库中存在的其他大肠杆菌成员中没有同源MGCs。
 
为了进行比较,我们还分析了大肠杆菌K-12GCA 000005845.2)的基因组,发现该基因组包含20MGC,其中16个与已知参考MGCs的总体基因簇同一性为75%,与KnownClusterBlast数据库相比(见图3A)。在预测的MGCs中,我们发现了caieut操纵子,但与艾伯特氏大肠杆菌相比,MGCs缺乏pdu和亮氨酸还原分支HMGC等。
为了展示另一个不同门的例子,我们分析了一种Ruminococcus gnavus,一种因分泌促进炎症的复杂多糖而与克罗恩病相关的Ruminococcus gnavus的基因组。在这种情况下,菌株AGR2154GCF 000526735.1)的基因组FASTA文件被用作gutSMASH的输入,gutSMASH预测了10MGCs(在9个区域中,区域4.5包含两个MGCs;参见图3B)。其中五个被归类为假定的,因为它们或与KnownClusterBlast数据库中的任何条目都不匹配,或整体序列标识非常低。有趣的是,这种微生物产生脂肪胺亚精胺,通过抑制免疫反应起到抗炎剂的作用。
 

图3. E. coli K-12和R. gnavus基因组的gutSMASH运行概述。在概述中,可以看到关于预测MGCs的各种信息,例如预测MGCs的数量、类型和类别以及基因组坐标。如果与KnownClusterBlast数据库中的任何MGC存在相似性,则还可以看到总体相似性百分比(查询中具有同源物的参考MGC中的基因百分比)。
 
2 基因功能注释有助于对反应有更深入的了解
在三次gutSMASH运行中,我们使用pmDBFA模块启用了基因功能注释。从结果中,已知的MGCs(如cai操纵子)编码的E. albertii中的两个电子转移蛋白(BAT33784.1BAT33785.1),,可能参与电子转移反应,为电子传递链提供燃料。然而,我们也在其他功能未知的MGCs中发现了这些编码基因,如预测的甘氨酰自由基(GR)脂肪酸基因簇(见图4AB)。后者属于GR类,因为它编码丙酮酸甲酸裂解酶,但也编码酰基辅酶a脱氢酶。基因颜色注释有助于可视化和显示这种假定的MGC不仅编码核心酶编码基因,还编码运输、调节和电子运输相关基因。类似地,对于Ruminococcus gnavus基因组,我们发现了一个属于GR类的假定EMGC,因为ctg21090的编码序列包含一个甘氨酸自由基和PFL样结构域(分别为PF01228PF02901,见图4C)。其中一个基因还编码醛缩酶(PF00596),由于存在多个BMC编码基因,这表明该途径可能被封装到所谓的细菌微区中。
 

图4. gutSMASH预测的已知和假定MGCs,带有功能性注释基因。A和B由E. albertii预测,C由R. gnavus预测。基因簇A代表肉碱降解操纵子,即已知的MGC,它包含核心基因(深红色箭头)和辅助基因(橙色),但也包含运输相关基因(蓝色)和电子运输相关基因(深黄色)。基因簇B是一个假定的基因簇,编码甘氨酰自由基酶。MGC还包含属于以下类别的基因:辅助基因、电子传递基因和调节基因。基因簇C是一个甘氨酰自由基相关的假定MGC,具有多个封装相关基因。
 

总结和展望

 
目前,gutSMASH能够预测一系列已知和假定的基因簇,这些基因簇在功能上对肠道微生物组以及原则上对任何其他经常出现这种途径的微生物组(包括皮肤和口腔)都很有兴趣。这个用户友好的web服务器的设置使不熟悉命令行的研究人员可以访问此工具。此外,本文提供的示例说明了如何通过启用比较基因组学分析和功能基因注释选项,用户可以提取有用的信息来解释和进一步分析预测区域。
gutSMASH 1.0版是为初级代谢基因簇和生物能学挖掘厌氧基因组的第一步,但我们已经预计,在不久的将来,该工具的更新版本将必须包括新的检测规则,以预测新特征的基因簇。因此,建议用户定期查看在线gutSMASH文档,以了解检测到的基因簇类型的最新列表。未来,一个全面的基因簇数据库,类似于反mash检测基因簇的反mash数据库,也将有助于用户根据感兴趣的分类实体查询数据库(例如。,在物种或属水平)或检索具有感兴趣的蛋白质家族的特定组合的基因簇。总的来说,我们相信,通过这项工作,我们为社区提供了一个有用的资产,用于分析专门初级MGC和生物能学的微生物组群,以便更好地了解该生态系统中的化学成分,并利用现成的简化方案。


不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
gutSMASH,基因簇,预测,基因,MGC

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交