DeepAIR:有效整合序列和3D结构以实现TCR分析

2023
08/31

+
分享
评论
TCRshows
A-
A+

总之,DeepAIR是一个全面且可解释的深度学习框架,用于TCR/BCR抗原结合分析,集成了序列和结构信息。

适应性免疫受体(AIRs),包括T细胞受体(TCR)和B细胞受体(BCR)与其同源抗原之间的结构对接是适应性免疫中最基本的过程之一。然而,目前预测AIR抗原结合的方法在很大程度上依赖于AIR的序列衍生特征,而忽略了对结合亲和力至关重要的结构特征。在这里,提出了一个深度学习框架,称为DeepAIR,通过结合AIR的序列和结构特征来准确预测AIR与AIR抗原的结合。DeepAIR预测TCR结合亲和力的皮尔逊相关系数为0.813,预测TCR和BCR结合反应性的AUC曲线下的中位数面积分别为0.904和0.942。同时,使用TCR和BCR库,DeepAIR正确地识别了测试数据中的每个鼻咽癌和炎症性肠病患者。因此,DeepAIR改进了AIR抗原结合预测,从而促进了适应性免疫的研究。

对于TCR和BCR,CDR3环是免疫库研究中应用最广泛的区域,它被定义为组成机体适应性免疫系统的TCR和BCR的总和。每条链由可变(V)基因片段、多样性(D)基因片段和连接(J)基因片段的体细胞重组基因序列编码。V(D)J基因片段的遗传重排产生了一个高度多态的AIR谱系,允许仔细检查和识别各种抗原。因此,准确识别AIR抗原识别对于了解适应性免疫系统以及设计免疫疗法和疫苗至关重要。

高通量测序技术已被广泛应用于V(D)J基因和AIRs克隆多样性的分析。V(D)J基因的这种序列数据的可用性使得能够基于序列衍生特征对识别相同抗原的AIR进行聚集。然而,高通量批量测序技术往往只捕获一条AIR链,这不足以描绘受体的完整序列特征,从而阻碍了基于序列特征的可靠预测模型的开发。单细胞免疫库测序技术的最新进展使得能够捕获受体的两条链,为构建AIR抗原结合预测模型提供了完整的V(D)J基因测序数据,例如GLIPH、TCRdist、DeepTCR、TCRAI、soNNia、ERGO、NetTCR、TcellMatch、pMTnet、RACER、Mal-ID和DeepRC。

大多数AIR-抗原结合预测模型侧重于结合反应性(或称为结合特异性)的预测,即AIRs是否与特定抗原结合。在这些模型中,GLIPH和TCRdist是两种传统的统计方法,RACER使用成对能量模型,而其他模型包括DeepTCR、TCRAI、soNNia、ERGO、NetTCR、TcellMatch和pMTnet,利用state-of-the-art(SOTA)深度学习技术。正如预期的那样,基于深度学习的模型,如DeepTCR和TCRAI,通常表现出比传统统计模型(如GLIPH和TCRdist)更好的预测性能。还值得注意的是,大多数方法仅针对TCR的AIR抗原结合反应性而设计,而soNNia是目前唯一可用于TCR和BCR的方法。除了预测AIR和抗原之间的结合反应性外,一些模型,如DeepTCR和TcellMatch,还进一步预测结合的强度,这被称为结合亲和力。尽管DeepTCR和TCRAI等SOTA方法在预测结合反应性方面取得了较好的效果,但结合亲和力的预测仍然是一个很大的挑战。SOTA方法的实际值与预测值之间的皮尔逊相关系数约为0.7。

免疫库由TCRs和BCRs组成,它们构成了机体的适应性免疫系统。通过分析免疫库中与抗原结合的TCRs和BCRs来识别疾病是有希望的。然而,上述AIR抗原结合预测模型中很少有进行免疫库分析的。只有DeepTCR使用集成了TCR结合反应性的监督多实例学习(MIL)算法来对免疫库进行分类。目前的免疫库分类方法,如Mal-ID和DeepRC,并不总是需要关于AIR抗原结合反应性的信息。Mal-ID通过组合BCR序列的三个分类器来对免疫库进行分类并预测疾病。DeepRC使用具有注意力机制的现代Hopfield网络来进行免疫库分类和疾病预测。

所有这些方法都只使用序列派生的特征来构建机器学习模型。然而,AIR的结构在识别与抗原相互作用方面起着基本的作用。尽管AIRs的结构数据因实验成本高而短缺,但由于最近蛋白质结构预测AlphaFold2的突破,提供了丰富的准确预测AIRs的结构数据。现在可以研究如何使用预测的AIR结构来提高AIR分析的计算模型,包括AIR抗原结合预测和免疫库分类。

在这里,提出了一个深度学习框架DeepAIR,用于结构增强的AIR分析。DeepAIR的功能包括AIR抗原结合预测和免疫库分类。使用专门设计的基于门控的注意机制和张量融合机制,DeepAIR利用AlphaFold2预测的AIR结构信息来进行AIR抗原结合预测。基准实验表明,在同时包含TCR和BCR(抗体)的六个数据集上,DeepAIR在包括TCRAI、DeepTCR和soNNia在内的所有三个AIR抗原分析任务中,在AUC方面取得了优于SOTA方法的预测性能(表1)。

表1 使用单细胞免疫库数据进行AIR抗原结合分析的方法的性能

13011693390853914

DeepAIR一个集成三维结构信息的深度学习框架,用于预测TCR/BCR-抗原结合

AIR的CDR3环是最多样的CDR环,在接触AIR-抗原结合复合体中的抗原表位方面发挥着突出的作用。因此,CDR3序列的信息在以前的方法中被广泛使用,用于预测TCR-pMHC结合,如DeepTCR和TCRAI。假设CDR3区的结构对于构建准确的AIR抗原结合预测模型是重要的。为了检验这一点,从PDB数据库中收集了两个TCR-pMHC结合复合物的实验验证结构[PDB ID:1OGA(TCR-GILGFVFTL,Flu)和3HG1(TCR-ELAGIGILTV,Melanoma)]。还从10x Genomics网站收集了与相同表位结合的TCR序列。从收集的序列中,发现副表位结合位点上的氨基酸表现出不同程度的保守性。观察到β-98R与GILGFVFTL(HLA-A0201)表位结合,显示出相当高的保守性。相反,与ELAGIGILTV(HLA-A0201)结合的β-98L显示出相对较低的保守水平(下图)。除了序列本身,AlphaFold2使用这些序列预测的结构提供了有价值和独特的信息,有助于确定AIR抗原结合的反应性和特异性;例如,对于与SARS-CoV-2病毒相同表位结合的AIRs(TCR和BCR),虽然它们的CDR3序列被取代了1到5个氨基酸,但它们的CDR3结构几乎相同。然而,对于与SARS-CoV-2病毒不同表位结合的AIR,发现它们的CDR3结构比序列显示出更大的差异。上述对有限数量样本的观察表明,将CDR3区域的结构信息纳入DeepAIR模型可能有助于提高预测性能。

85561693390898297

DeepAIR从AIR的CDR3区域获取三种类型的信息作为输入:序列、结构和V(D)J基因。该系统有三个主要阶段来处理数据和进行预测(图1)。第1阶段为多通道特征提取,使用三个特征编码器对AIR进行综合编码。这些编码器是基因编码器、序列编码器和结构编码器。基因编码器使用可训练的嵌入层嵌入有关V(D)J基因使用的信息。序列编码器使用多层变压器模型对成对链的序列进行编码。最后,结构编码器使用预先训练的AlphaFold2来提取结构信息,并使用级联卷积层对其进行处理。第2阶段为多模式特征融合,它使用一个带有基于门控的注意机制的融合模块,从编码的结构、序列和基因使用信息中提取关键特征。然后将这些特征与张量融合机制集成在一起。第3阶段为任务特定预测,将集成的特征提供给特定于任务的预测层,用于对AIR-抗原相互作用的下游分析。这包括预测与回归层的结合亲和力,预测与分类层的结合反应性,以及使用MIL层进行免疫库分类。为了客观地表征结构信息的贡献,创建了DeepAIR的两个变体,即DeepAIR-stru和DeepAIR-seq。DeepAIR-stru是一个只使用结构信息的模型,而DeepAIR-seq是一个从序列和V(D)J基因使用信息中学习的模型。

15671693390922350

图1 构建DeepAIR的计算框架

评估预测的TCR/BCR结构

与TCRdb数据库和免疫表位数据库(IEDB)数据库中超过2.77亿个具有已知序列的TCR和BCR相比,在PDB数据库中只有858个可用于人TCR的实验验证结构和3333个可用于人BCR的实验验证结构。由于大多数AIR结构的可用性有限,使用AlphaFold2来预测未匹配的AIR结构,并构建了DeepAIR模型。因此,预测AIR结构的准确性对DeepAIR的预测性能至关重要。为了找到使用AlphaFold2预测AIR结构的最佳方法,从PDB数据库收集了有和没有抗原结合的TCR和BCR的实验验证结构。然后,使用全长β/重链的氨基酸序列(图2 A-D)预测AlphaFold2的AIR结构。用预测的AIR结构与实验验证的AIR结构之间的均方根偏差(RMSD)来衡量预测的精度。

1111693390940775

图2 使用AlphaFold2评估预测的AIR结构。

使用全长β/重链序列预测的CDR3结构的中位数RMSD为0.964Å,与CASP2数据集上的AlphaFold2相似。预测的TCR结构似乎比预测的BCR结构更准确(图2E)。TCR和BCR预测的CDR3结构的RMSD中值分别为0.35和1.92Å。结果表明,AlphaFold2不能很好地预测BCR的CDR3结构。此外,抗原结合降低了对CDR3结构的预测准确性(图2 F,G)。与实验验证的AIRs的CDR3结构相比,预测的AIR的CDR3结构的RMSD中值分别为1.42和0.46Å,这表明抗原结合可能改变CDR3的结构,这可能增加预测结构的难度。

预测TCR-抗原结合亲和力

抗原结合是基于AIR与抗原之间的亲和力。目前,还没有可靠的计算方法来预测准确的结合亲和力,特别是TCR-pMHC结合。在这里使用pMHC捕获的独特TCR分子的计数作为AIR抗原结合亲和力的观察指标,遵循DeepTCR使用的策略。使用唯一的UMI来代表每个独特的TCR分子。UMI是一种分子条形码,在测序过程中提供纠错和更高的准确性。这些UMI是用于对样本库中的每个分子进行唯一标记的短序列。这里主要关注TCR AIR抗原结合亲和力的预测。

从10x Genomic网站获得pMHC捕获的单细胞TCR数据,其中包括44个pMHC多聚体捕获的单细胞TCR和来自4个供体的6个阴性对照。使用ICON工作流管理数据,以删除低质量的TCR和假阳性绑定。将核苷酸序列不同但氨基酸序列相同的克隆聚集在一起,形成一个独特的TCR克隆。经过数据筛选,共得到38558对α/β链,分别与7个pMHC多聚体结合,包括黑色素瘤MART-1蛋白的ELAGIGILTV(HLA-A0201)、流感病毒M1蛋白的GILGFVFTL(HLA-A0201)、CMV IE1蛋白的KLGGALQAK(HLA-A0301)、EBV BMLF1蛋白的GLCTLVAML(HLA-A0201)、EBV EBNA4蛋白的AVFDRKSDAK(HLA-A1101)、EBV EBNA3B蛋白的IVTDFSVIK(HLA-A1101)和EBV BZLF1蛋白的RAKFKQLL(HLA-B0801)。

在DeepAIR框架中,AIR抗原结合亲和力的预测被作为回归任务来解决。对于每个pMHC(抗原),其在数据集中的TCR被随机分为训练数据(70%)、验证数据(20%)和测试数据(10%)。以TCR克隆为基本单位对数据进行拆分,以减少训练数据和测试数据之间的序列同源性。使用训练数据训练结合亲和力预测模型,使用验证数据优化结合亲和力预测模型,并使用独立测试数据独立测试结合亲和力预测模型。由于TCRAI和soNNia不能预测结合亲和力,因此将DeepAIR与DeepAIR-stru、DeepAIR-seq和DeepTCR的性能进行比较。这里的所有方法都是使用完全相同的训练数据进行训练的。在相同测试数据上的表现如图3所示。DeepAIR预测的亲和力与实验观察到的结合亲和力之间的皮尔逊相关性最高(图3A)。同时,DeepAIR获得了最低的均方误差(MSE)和平均绝对误差(MAE),这表明DeepAIR预测的TCR与抗原的亲和力最接近实验观察(图3C)。检查了预测的结合亲和力是否足够准确,能够确定TCR和pMHC之间的特异性结合。使用ROC曲线来说明预测的亲和力在区分实验观察到的TCR-pMHC结合方面的能力。AUC是此任务性能的综合衡量标准。结果表面,DeepAIR的AUC为0.912,明显好于其他方法(图3B)。值得注意的是,DeepAIR-stru在所有比较中的表现都好于DeepAIR-seq(图3 A-C),这表明结构数据对提高预测性能的贡献。

21011693390962651

图3 DeepAIR和DeepTCR TCR结合亲和力预测的性能比较。

为了更好地理解和解释DeepAIR对TCR抗原结合亲和力的预测能力,从预测GILGFVFTL亲和力的模型中提取了每个残基的相关权重。高权重表明残基对预测TCR抗原结合亲和力很重要。例如,β-98位的氨基酸残基R对TCR与HLA-A2-GILGFVFTL(M1蛋白,Flu)的结合至关重要(图3D)。研究了PDB ID:1OGA的TCR-GILGFVFTL结合复合物的晶体结构。注意到,β-98R是TCR-β链和GILGFVFTL之间的接触残基(图3D)。在这种情况下,DeepAIR准确地捕捉到了TCR中影响TCR抗原结合的重要部分。此外,DeepAIR强调了N在α-98位的重要性。该残基是稳定TCR结构的α链和β链之间的接触残基。在使用TCR-GLCTLVAML结合复合物(EBV,PDB ID: 3O4L)的晶体结构的另一实例中观察到类似的事情。DeepAIR强调了α-91R和β-100T在确定TCR与GLCTLVAML的结合亲和力方面的重要性(图EBV)。根据TCR-GLCTLVAML结合复合物的晶体结构,α-91R是α链与β链之间的接触残基,而β-100T是TCR-β链与GLCTLVAML之间的接触残基。在使用TCR-ELAGIGILTV结合复合体(黑色素瘤,PDB ID:3HG1)的晶体结构的例子中,DeepAIR强调了α和β链之间以及α链和表位之间以及β链和表位之间的接触残基的重要性(图Melanoma)。结果表明,DeepAIR了解到稳定成对的α-β结构对于TCR与抗原之间的结合亲和力是重要的。此外,DeepAIR在与GILGFVFTL(M1蛋白,Flu)表现出高结合亲和力的TCR中发现了类似的部分结构,但在那些表现出低结合亲和力的TCR中则没有。总之,DeepAIR不仅准确地预测了TCR与抗原的结合亲和力,而且还揭示了直接导致TCR与抗原结合的重要残基。

99721693390987604

图EBV TCR-GLCTLVAML

45951693390999554

图Melanoma TCR-ELAGIGILTV

预测TCR-抗原结合反应性

除了使用AIR抗原结合亲和力之外,预测AIR抗原结合反应性的一个常见策略是有效地学习从与同一抗原结合的AIR模式。这在DeepAIR中被作为分类任务来考虑和解决。为了评估DeepAIR在预测TCR结合反应性方面的性能,从各种来源收集了经过实验验证的pMHC特异性TCR,包括10x Genomics网站和SARS-CoV-2病毒研究。10x Genomics数据有38558对TCRα/β链,分别属于5834个TCR克隆,其中5560个克隆与7个pMHC多聚体结合,这与用于AIR抗原结合亲和力预测的数据相同。SARS-CoV-2病毒数据有592对TCRα/β链,属于589个TCR克隆,与来自SARS-CoV-2病毒的3个pMHC多聚体结合。这些pMHC多聚体包括来自Spike蛋白的LTDEMIAQY(HLA-A0101)和YLQPRTFLL(HLA-A0201)以及来自ORF1ab多聚蛋白的TTDPSFLGRY(HLA-A0201)。因此,总共使用了10个pMHC多聚体的6423个TCR克隆来预测结合反应性。

为了研究深度学习模型是否可以预测未知TCR的AIR抗原结合反应性,像在结合亲和力预测任务中所做的那样,将TCR克隆随机分为训练数据(70%)、验证数据(20%)和测试数据(10%)。DeepAIR预测10个pMHC多聚体的TCR抗原结合反应性的中位数AUC为0.904(表2),显著优于所有其他方法,包括DeepAIR-stru(0.867)、DeepAIR-seq(0.827)、TCRAI(0.845)、DeepTCR(0.844)和soNNia(0.782)(图4A和表2)。所有方法都是使用与DeepAIR相同的数据集进行训练和测试的。如表2所示,大多数方法在预测与ELAGIGILTV(黑色素瘤MART-1)特异性结合的TCR方面取得了较好的性能,而在预测与LTDEMIAQY(SARS-CoV-2的Spike蛋白)特异性结合的TCR方面取得了较差的性能。这些结果表明,LTDEMIAQY(SARS-CoV-2 Spike)的TCR比ELAGIGILTV(黑色素瘤的MART-1)的TCR更加多样化。

表2 TCR结合反应性预测方法在独立测试数据上的性能

33181693391013895

由于DeepAIR依赖于AlphaFold2的预测结构,因此进一步研究了结构预测的准确性如何影响模型的性能。首先,在AlphaFold2的预测局部距离差异测试(pLDDT)分数和RMSD值之间进行了皮尔逊相关分析,RMSD值是通过比较AlphaFold2预测的TCR CDR3结构和从结构STCRDab收集的539个真实TCR CDR3结构得到的。结果表明,pLDDT总体上反映了TCR CDR3结构的预测精度。使用具有不同pLDDT分数的预测CDR3结构的TCR来评估DeepAIR、DeepAIR-stru和DeepAIR-seq的AUC性能。发现表明,纳入pLDDT>80的结构信息大大提高了模型的性能,而包括pLDDT<80的结构则略有增加。这凸显了CDR3结构预测精度对结构信息对模型性能贡献的影响。本研究中预测的大多数(95.5%)TCR结构的pLDDT得分>80,中位数为86.2,结合结构信息确实具有改善模型性能的潜力。

在实际应用中,一个常见的场景是,使用一个训练良好的模型来预测来自独立于训练队列的个体的TCR的抗原结合反应性。为了评估模型在此场景中的性能,执行了leave-one-out交叉验证。在10x Genomics数据集中有4个捐赠者。Donor1和Donor2分别有1374和2183个TCR克隆,分别与7个pMHC多聚体结合。Donor3有1752个TCR克隆,与6个pMHC多聚体结合。Donor4有251个TCR克隆,与5个pMHC多聚体结合。对于每个pMHC,使用来自三个donor的TCR来训练和优化模型,并使用来自最后一个donor的TCR来测试优化的模型。结果,DeepAIR在所有接受测试的donor中取得了最好的表现,AUC的中位数为0.939(图4A和表3)。表3显示了所有方法在leave-one-out测试中的每个肽的性能;有趣的是,DeepAIR-stru在几乎所有测试中获得了第二好的性能,中位数AUC值为0.881。由于测试将训练和测试数据按捐赠者分开,因此很可能在训练供体和测试供体之间存在共享的TCR克隆。通过删除训练供体和测试供体之间共享的TCR克隆,在严格的leave-one-out测试模式下进一步研究了所有方法的性能。在这种模式下尽管所有方法的性能都有所下降,DeepAIR和DeepAIR-stru仍然表现出最高和第二高的性能,中位数AUC分别为0.840和0.829,优于DeepAIR-seq(0.717)、DeepTCR(0.726)、TCRAI(0.721)和soNNia(0.639)。这表明,结构信息对DeepAIR在预测TCR抗原结合反应性方面的优势贡献最大。

使用结构信息的方法的性能,包括DeepAIR和DeepAIR-stru,似乎比基于序列的方法要稳定得多,包括DeepAIR-seq、TCRAI、DeepTCR和soNNia,这从所有测试中较低的方差系数值证明(图4B)。结果还表明,结构信息确实有助于提高模型在预测AIR抗原结合反应性方面的稳定性。

97881693391033167

图4 DeepAIR和其他SOTA方法预测TCR-抗原结合反应性的性能比较

表3 leave-one-out试验中TCR结合反应性预测方法的性能

64101693391051920

为了评估DeepAIR在预测TCR抗原特异性方面的性能,进行了以下抗原特异性预测基准。具体地说,对于每个TCR,DeepAIR预测其与多个感兴趣表位的结合反应,并选择结合分数最高的表位作为预测的结合特异性目标。计算了Top-1、Top-2和Top-3的准确度作为评估DeepAIR性能的指标,它分别指示了TCR及其结合表位在DeepAIR模型的Top-1、Top-2和Top-3预测中的比例。DeepAIR的Top-1准确度为0.852,Top-2准确度为0.945,Top-3准确度为0.979,表明其在预测TCR的抗原特异性方面具有较强的能力。

总结

总之,DeepAIR是一个全面且可解释的深度学习框架,用于TCR/BCR抗原结合分析,集成了序列和结构信息。DeepAIR在AIR抗原结合反应性方面表现出优秀的预测性能,并且优于SOTA预测指标。DeepAIR可以作为分析高度抗原相互作用的TCR/BCR的重要工具,从而更好地为个性化免疫疗法的设计提供信息。

J.-W. Sidhom, et al. Deep generative selection models of T and B cell receptor repertoires with soNNia. Proc. Natl. Acad. Sci. U.S.A. 118, e2023141118 (2021).

A. A. Minervina, et al. SARS-CoV-2 antigen exposure history shapes phenotypes and specificity of memory CD8+ T cells. Nat. Immunol. 23, 781–790 (2022).

M. E. Zaslavsky, et al. Disease diagnostics using machine learning of immune receptors. bioRxiv [Preprint]. 28 April 2022.

Yu Zhao, et al. DeepAIR: A deep learning framework for effective integration of sequence and 3D structure to enable adaptive immune receptor analysis. Sci. Adv.9,eabo5128(2023)

A. Montemurro, et al. NetTCR-2.0 enables accurate prediction of TCR-peptide binding by using paired TCRα and β sequence data. Commun. Biol. 4, 1060 (2021).

T. Lu, et al. Deep learning-based prediction of the T cell receptor-antigen binding specificity. Nat. Mach. Intell. 3, 864–875 (2021).

P. Zareie, et al. Canonical T cell receptor docking on peptide-MHC is essential for T cell signaling. Science 372, eabe9124 (2021).

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
CDR3,TCR,AIR,抗原

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交