蛋白语言模型(protein language models,pLMs)已广泛用于对蛋白质序列进行嵌入表示,支持多种下游任务。然而,现有pLMs在建模蛋白质之间复杂、多样的相互作用方面仍存在局限。

为此,匹兹堡大学研究团队于2025年7月28日在《Nature Methods》期刊上发表题为《Sliding Window Interaction Grammar (SWING): a generalized interaction language model for peptide and protein interactions》的研究论文,提出了一种通用的互作语言模型(interaction language model,iLM)——SWING,即滑动窗口互作语法。

该模型灵感来源于生物学机制,通过滑动窗口方式对蛋白质或肽段残基进行配对,结合其生化属性,生成具有语义特征的语言式嵌入,从而对蛋白-肽之间的相互作用建模。SWING的设计突破在于,它不依赖结构信息,仅基于序列即可实现对高度多样化的蛋白质相互作用进行精确建模。例如,SWING在处理复杂的肽-MHC(主要组织相容性复合物)结合预测任务中展现出优异性能,并能够在涵盖广泛遗传背景和跨物种的等位基因上实现良好泛化。

项目灵感源自一次跨学科的头脑风暴讨论:研究者J.D.提出如何以语言方式表达分子互作的构想,并绘制了编码机制的示意图;A.V.J.则将其与肽在MHC沟槽中滑动的机制类比。通过与三位共同第一作者讨论后,SWING的核心理念逐渐成型。对J.D.而言,SWING回应了构建能捕捉生物互作语言的机器学习模型的需求;而对致力于抗原发现的A.V.J.来说,这是能够推广到覆盖全谱遗传多样性和跨物种的MHC等位基因的工具。两位通讯作者表示,SWING的成功离不开整个团队的深度互动与深入协作。

《Nature Methods》资深编辑Madhura Mukhopadhyay评价道:“SWING是一种具有通用性的相互作用语言模型,能够精准建模包括肽-MH在内的多样蛋白质-肽互作。凭借其高适应性与预测能力,SWING有望成为蛋白语言建模领域的重要工具。

美国圣裘德儿童研究医院的M.Madan Babu以及Tian Cai也高度评价该成果:“SWING是一种自下而上的关键创新,它通过构建交互语言的方式,定义了蛋白质互作建模的新词汇。这项工作极具启发性,展示了生物学原理如何深刻引导模型的设计方向。

背景

蛋白语言模型(pLMs)已成为生成蛋白质与肽有意义表征的常用工具,广泛应用于多种任务,包括蛋白质结构的预测与设计,以及功能背景的学习。尽管这些模型在捕捉单个序列或结构信息方面功能强大且灵活,但并不擅长捕捉蛋白之间的互作关系,这是其一项关键局限,因为蛋白的功能通常是通过与其他蛋白的相互作用来实现的。

当前的pLM方法往往是分别对相互作用蛋白的序列进行嵌入并通过合并后的表示预测蛋白-蛋白互作(PPI);另一种方法是直接拼接两个序列后再进行整体嵌入(图1a)。这些方法会对每个氨基酸位置进行聚合,但忽视了互作所依赖的上下文特异性以及关键残基接触点。而这些接触点本质上是受到进化规律约束的。此外,序列长度也是将pLMs扩展至所有蛋白类别的一大障碍。因此,pLMs在学习蛋白互作语言方面并不理想。

本文提出了一种滑动窗口互作语法(SWING),这是一种对序列长度无依赖的互作语言模型(iLM),能够捕捉蛋白-蛋白或蛋白-肽互作中的语言规律。将SWING应用于多个任务,其在不同领域均优于现有的最先进方法。首先,预测肽-主要组织相容性复合体(major histocompatibility complex,MHC)的结合关系。由于潜在的肽-MHC(pMHC)组合数量巨大,实验验证这些组合在实践中几乎不可行。尽管已有计算工具可以预测pMHC互作,但它们通常依赖于特定等位基因的实验数据集,难以对未见过的等位基因进行准确预测。提出的iLM不会受到上下文特异性的限制,因此能更好地泛化到MHC的序列多样性上。此外,还将SWING拓展至另一个任务,预测错义变异对PPI的破坏。目前多数变异效应预测器不擅长判断具体的相互作用是否会受到破坏。能够预测哪些错义突变会扰乱特定蛋白互作,有助于揭示从基因型到表型的关键联系。此外,作者还将深度学习模型拓展至序列信息不完整或不需要全序列的场景中使用。总体而言,SWING是一种受生物学启发、具有广泛泛化能力的iLM,能够在不同任务中学习肽和蛋白互作的“语言”。

方法

SWING采用滑动窗口的方式,将两种蛋白质中的残基进行配对,并利用它们对应的生化性质对这些残基对进行编码,从而生成类似语言的表征。具体来说,过程如图1b所示,滑动窗口是一个长度为n的肽段,在目标蛋白序列上从第一个位置起与其完全对齐。在每个位置上,该对氨基酸之间生化差异的绝对值取整作为该氨基酸对的表示。随后,滑动窗口按一个氨基酸位移,并重复上述操作直到序列结束。最终将所得序列切分为重叠的长度为k的子序列(k-mer)。每个子序列视为一个“单词”,而整个互作则被看作由这些单词组成的“文档”。之后,使用Doc2Vec模型对这些“文档”生成互作嵌入。该嵌入随后作为特征输入下游的监督学习器(如XGBoost)进行预测(图1c)。结果表明,Doc2Vec能为互作“词汇表”生成有意义的表示,并可广泛应用于多种下游任务中。

图1 SWING概览

结果

学习pMHC互作语言

pMHC互作在抗原加工与呈递中发挥关键作用。MHC-I与MHC-Ⅱ的结合机制在结构与功能上也存在显著差异:MHC-I拥有一个较深的结合槽,仅容纳长度为8-12个残基的肽段;而MHC-Ⅱ的结合槽较浅,肽段的两端通常超出槽体,肽段长度可达9-22个残基。

在SWING中,表位(即被呈递的肽段)正好可作为滑动窗口的序列片段。MHC的功能性子序列与该窗口组合后形成一段生化语言表示(图2a),随后提取嵌入表示作为监督学习模型的输入。首先在人类Ⅰ类免疫肽组数据上训练了SWING模型,从多个不同的人类白细胞抗原(HLA)等位基因中选取具有功能差异的互作样本,以捕捉功能多样性并去除冗余。监督学习采用梯度提升树模型。通过k折交叉验证评估模型性能,训练集中迭代性地留出子集作为验证集(图2b);此外,还构建了功能上完全不重合的训练-测试集,用于评估模型的跨预测能力(图2c)。在交叉验证中,训练与测试集共享等位基因,但具体的pMHC对不重叠;而在跨预测中,训练和测试集的等位基因完全不重合(图2c)。为增强评估的鲁棒性,进一步使用功能显著差异的数据集测试泛化能力(图2d)。

图2 SWING预测pMHC

结果显示,SWING在交叉验证设置下显著预测了pMHC-I的结合(图2e,AUC=0.72,P<0.001);并且在所有未见等位基因上表现稳定(图2f,AUC=0.72-0.84)。SWING也成功预测了与训练集功能差异较大的HLA-Ⅰ等位基因的pMHC互作(图2g,AUC=0.63-0.70)。这说明SWING能用于预测稀有或研究不足的MHC等位基因的结合情况。此外,也训练了一个用于Ⅱ类pMHC互作的SWING模型,选取具有功能差异的Ⅱ类等位基因作为训练集(图2h)。模型在交叉验证中准确预测了pMHC-Ⅱ的互作(图2i,AUC=0.90,P<0.001),并在未见的、功能不同的Ⅱ类等位基因上同样表现良好(图2j,AUC=0.93-0.95)。这表明SWING能通过代表性等位基因的训练数据,学习Ⅰ类和Ⅱ类pMHC互作的语言。

捕捉生物学特征

为了评估模型是否存在对极性偏向的依赖,将度量方式更换为疏水性重新生成语言表示进行建模(图3a)。结果显示,新的Ⅰ类(图3b,SCV-AUC=0.72,P<0.001,跨预测AUC=0.7-0.81)和Ⅱ类模型(图3c,SCV-AUC=0.88,P<0.001,跨预测AUC=0.88)依然能够准确预测功能相似或相异的MHC分子的互作。这表明,SWING能够捕捉与相互作用相关的信息,不依赖于某一特定生化性质。

图3 SWING捕捉pMHC生物学特征

Nat Methods|SWING:一种用于肽-蛋白互作建模的通用语言模型

MHC分子中前206个氨基酸(AA)基本决定了肽段的结合能力,因此只使用这部分序列进行训练。正如预期所示,使用更长的MHC序列(图3d)并未显著影响模型性能:Ⅰ类模型的表现为:SCV-AUC=0.69,P<0.001,跨预测AUC=0.7–0.82(图3e);Ⅱ类模型的表现为:SCV-AUC=0.90,P<0.001,跨预测AUC=0.93–0.95(图 3f)。

对Ⅱ类肽段而言,其9-AA核心和侧翼残基决定了结合特异性。将肽段从21AA逐步缩短至5AA,预测性能在低于9AA后明显下降(图3h,i),说明核心序列信息缺失会导致模型无法准确预测。SWING能自动识别并学习到核心基序对结合的关键作用。

知识迁移

HLAⅠ类与Ⅱ类在结构和功能上存在差异(图4a),因此大多数方法都采用类别特异性模型。作者认为SWING所学习的嵌入包含了互作特异性的信息,因此能够进行Ⅰ类与Ⅱ类pMHC互作之间的零样本预测。实验表明,SWING的Ⅰ类模型能够有效预测Ⅱ类pMHC互作(图4b,AUC=0.74-0.77)。在未见过测试等位基因的前提下,SWING表现优于其他复杂模型(如NetMHCpan、MixMHC2pred)(图4c)。

图4 零样本SWING性能

SWING的联合模型(在Ⅰ类和Ⅱ类pMHC互作上共同训练)能够准确预测来自MHC-Ⅰ和MHC-Ⅱ的互作数据点(图4d,AUC=0.70,P<0.001)。预测性能并未因某一类样本占主导而受到影响,因为该模型在Ⅰ类(图4e,AUC=0.70-0.83)和Ⅱ类(图4f,AUC=0.88,0.93)预测上均表现出色。这说明SWING学会了MHCⅠ类和Ⅱ类抗原结合间共享的生物学规律,其能力通过Ⅰ类模型在Ⅱ类上的预测能力和联合模型的稳健性得以体现。

将人类SWING模型用于零样本预测小鼠pMHC互作。人鼠的MHC序列存在较大差异(图4g)。但人类SWING的MHC-Ⅱ模型能准确预测小鼠MHC-Ⅱ的互作(图4h,AUC=0.88),联合模型的表现也相近(图4i,AUC=0.85)。这表明SWING能够在不同物种等显著不同的生物学背景下实现泛化迁移。这种跨背景迁移能力是SWING独有的,在目前广泛使用的pMHC预测工具中尚未观察到。

零样本pMHC互作发现

pMHC互作与多种免疫疾病相关,其预测能力可在严格、具有生物学意义的背景中验证SWING的实用性。聚焦于小鼠的H-2-IEk等位基因,这是一个与狼疮性肾炎相关的MHCⅡ类基因。探究SWING是否能预测系统性红斑狼疮中免疫细胞浸润的肾脏组织中实验验证的免疫肽组。该预测性能与MixMHC2pred v2.0和NetMHCIIpan v4.2进行了比较。尽管测试的等位基因未出现在训练集中,SWING(Ⅰ类、Ⅱ类和混合模型)预测表现仍优于其他方法(图4j)。计算方法也常用于识别新型或稀有MHC分型的候选肽段。选用了未包含在SWING和NetMHCpan训练集中的H-2-IAg7等位基因作为测试对象。基于实验生成的IAg7肽组数据集,SWING在零样本预测中表现出最高的召回率(图4k)。SWING的独特框架能准确预测结合肽,无论MHC受体序列、物种或肽段长度如何。为了稳健评估模型性能,每个阳性肽段还随机加入10个阴性肽段作为背景。SWING的混合模型和Ⅱ类模型在所有指标上均优于MixMHC2pred和NetMHCIIpan(图4l)。SWING的Ⅰ类模型与MixMHC2pred和NetMHCIIpan表现相当。

变异扰动预测

目前变异效应预测(VEP)方法(如EVE、AlphaMissense、ESM1b)可区分结合位点和非结合位点变异,但无法预测变异引起的特定相互作用扰动(图5b,c)。SWING可用于此类变异效应预测,通过选择包含突变位点的信息子序列作为滑动窗口,并以相互作用配体的序列作为基础来生成上下文的相互作用语言(图5d)。

图5 SWING预测相互作用扰动

交叉验证表明SWING可高精度预测孟德尔突变的相互作用扰动(图5e,AUC=0.87,P<0.0001)。SWING同样能预测人群中常见与稀有变异导致的相互作用扰动(图5f,AUC=0.80,P<0.0001)。构建来源不可知模型后,仍能准确预测扰动(图5g,AUC=0.81,P<0.0001)。按照序列相似性进行聚类并用于训练-测试划分,排除相邻聚类后仍保持良好表现(图5i,AUC=0.71,P<0.05),显示SWING序列偏倚小。总体上,SWING优于参数复杂的主流VEP模型(图5j)。

泛化能力评估

将SWING-iLM与几种基于相互作用的语言模型进行了比较:基于卷积神经网络的模型(CNN-iLM)、基于编码序列的BERT Transformer(BERT-iLM)、以及直接用XGBoost训练的模型(XGB-iLE)。此外,也与一些使用不同方式表示相互作用的pLM方法进行了对比。将相互作用蛋白序列拼接后用Doc2Vec表征(CEmbed-pLM);分别为每个蛋白训练两个Doc2Vec模型后对它们的嵌入求和作为表征(ESum-pLM);使用蛋白序列Doc2Vec模型(D2V-pLM);以及使用ESM2生成蛋白嵌入(ESM-pLM)(图6a)。

图6 SWING和其他相互作用建模方法比较

在突变扰动相互作用预测任务中,仅ESum-pLM(AUC=0.85)略优于SWING-iLM(AUC=0.81),SWING-iLM优于其他模型(图6b)。CNN-iLM的表现虽不如SWING,但足以表明这种相互作用语言本身包含有用信号,而采用更优嵌入器可进一步提升性能。在pMHC结合预测任务中,在使用MHCⅠ类和Ⅱ类数据训练后,iLM模型在预测各自未见的Ⅰ类和Ⅱ类等位基因上的效果最好(图6c,AUC=0.76–0.87)。SWING-iLM在Ⅱ类pMHC相互作用预测中表现最佳(图6d,AUC=0.90);在Ⅰ类中,XGB-iLE(基于更大训练集)表现最好,其次是CNN-iLM(图6e,AUC=0.89-0.96)。在跨类别pMHC预测任务中,只有Ⅰ类SWING-iLM能够跨预测Ⅱ类pMHC相互作用(图6f,g,AUC=0.74-0.77);而在跨物种任务中,只有人类SWING-iLM能成功预测小鼠Ⅱ类MHC(H-2-IEk和H-2-IAg7)的pMHC相互作用(图 6h,i,AUC=0.81-0.90)。SWING-iLM是唯一能成功进行跨类别、跨物种pMHC预测的模型,而其他iLM与pLM模型的表现近似于随机。总之,在不同任务中,单纯依赖pLM生成的蛋白嵌入无法达到SWING-iLM的预测效果。尤其在最具挑战性的跨类和跨物种pMHC预测任务中,SWING-iLM明显优于其他模型。

讨论

SWING模型可仅基于序列信息,预测多个复杂情境下的pMHC相互作用,并执行复杂的变异效应预测任务。SWING实际上可以泛化应用于多种大分子之间的相互作用。在蛋白相关的应用中,SWING还可进一步捕捉PPI的细节,例如翻译后修饰(PTMs)对相互作用模式的影响。未来的SWING版本应能够处理超过两个输入序列,并预测更复杂的复合物,如T细胞受体-pMHC相互作用。此外,未来也将拓展至其他分子实体,如DNA、RNA以及小分子,从而用于分析异质相互作用类型(例如转录因子-DNA复合物),以更好理解生物调控网络。尽管SWING可广泛适用于生物领域中多种特定交互任务,但它不是一个通用的生物交互基础模型,需要依据特定的生物学背景进行定制与训练。这主要是由于与蛋白序列相比,生物交互网络的本质是不完整的,并且相互作用的特异性高度依赖于具体背景。SWING在预测肽-肽与肽-蛋白相互作用方面表现优异,而诸如D-SCRIPT之类的方法可能在全长蛋白间相互作用的预测中更具优势。

总结

通过学习语法和词汇,SWING能够在不同的生物学背景下推断蛋白质—蛋白质相互作用。本文所介绍的SWING在预测肽—MHC相互作用方面的具体应用,将有助于疫苗设计中的计算免疫原性预测、理解免疫攻击与耐受的机制,以及解析疾病的遗传风险。在变异效应预测方面,该方法能够应对巨大的遗传多样性,而无需重新训练新模型。SWING还将惠及开展跨物种研究的科研人员,因为它可在小鼠、人类以及潜在的其他物种之间迁移使用。关键是,SWING即便在缺乏结构信息或大规模训练数据集的情况下,也能学习到这些关系。

参考链接:

正文:https:///10.1038/s41592-025-02723-1

评述:https:///10.1038/s41592-025-02725-z