开发能够与治疗性蛋白结合的大环分子通常依赖大规模筛选方法,这些方法资源消耗巨大,并且对结合模式缺乏精确控制。尽管蛋白设计领域已有进展,但目前仍缺乏稳健的方法来实现蛋白结合大环分子的从头设计。

针对当前问题,华盛顿大学蛋白质设计研究所研究团队联合塔尔茨大学、杜塞尔多夫大学、麻省理工学院的研究人员于2025年6月20日在《Nature Chemical Biology》期刊上发表文章,题为“Accurate de novo design of high-affinity protein-binding macrocycles using deep learning”。文章介绍了名为RFpeptides的去噪扩散模型设计流程,用于针对特定蛋白靶点设计大环配体。针对四种不同蛋白,每种测试了不超过20个设计的大环分子,并在所有靶点上都获得了中等到高亲和力的结合分子。

RFpeptides代码仓库:

https://github.com/RosettaCommons/RFdiffusion

背景

理论上,大环肽的分子大小介于小分子和蛋白质之间,可被开发调控传统治疗手段难以触及的分子靶点。若能够为不同蛋白靶点定制蛋白结合大环分子,将在诊断和治疗中具有广泛应用价值。传统上,肽类治疗药物的开发主要依赖于天然产物发现,或大规模高通量筛选来寻找结合靶点的分子。然而,天然产物发现存在合成困难、稳定性有限和突变耐受性差等挑战。而高通量筛选虽强大,但耗时、耗资、耗力巨大,并且仅能覆盖大环分子可及化学与结构空间中的极小一部分。此外,这类方法常常难以同时优化靶点结合力、选择性和膜通透性等多种生物物理性质,因为要实现这些功能需要对结构进行精细控制。

已有一些新兴的深度学习方法被提出,用于预测大环及其与靶点复合物的结构,或用于设计蛋白靶向肽结合物。然而,这些方法尚未经过广泛的结构验证,也未能证明其在多样蛋白靶点上实现原子级精度的从头设计能力。近期生成式深度学习方法的突破可被利用来开发稳健的流程,实现准确且高效的大环配体设计。扩散模型已被训练来从随机初始化的氨基酸残基出发生成多样蛋白结构,并在中到大型蛋白单体、结合物和对称寡聚体的设计中表现出显著成功。然而,这些方法尚难以直接应用于大环肽设计。从零开始开发类似的肽类设计方法颇具挑战,主要因为缺乏可用于训练的实验数据。为解决这些问题,作者扩展了RoseTTAFold2(RF2)结构预测网络和RFdiffusion蛋白骨架生成框架,引入环状相对位置编码,从而能够生成大环肽的骨架结构。

方法

首先评估了RF2结构预测网络对已知大环肽结构的建模能力。在RF2中实现了一种经过修改的环状相对位置编码(图1a),并观察到其能够稳健地预测天然大环肽结构。将环状位置编码方案加入RFdiffusion,并观察到其能够稳健地产生多样的大环肽(图1b,c)。虽然并未尝试全面枚举环肽单体的结构空间,但RFpeptides可以轻松扩展,用于全面覆盖大环肽可及的结构空间。受到环状位置编码可迁移性的鼓舞,进一步尝试利用RFdiffusion来实现蛋白结合大环分子的从头设计。具体而言,修改了RFdiffusion的蛋白结合物设计流程。对于生成的大环链采用环状相对位置编码,而靶链及链间编码保持标准形式(图1d)。随后,引入ProteinMPNN为RFdiffusion生成的骨架设计氨基酸序列(图1e)。将这一整合流程称为RFpeptides,其能够针对靶蛋白生成包含多样二级结构的大环分子(图1f),并且结合标准RFdiffusion的功能,能够显著将生成的结合物分布偏向所需的残基。

图1 RFpeptides蛋白结合大环从头设计流程

如图1a所示,环对称相对位置编码能够生成大环肽骨架,其N端与C端通过肽键相连。该相对位置编码通过在索引j相对于索引i超过环的一半时,将正向位置编码(即向右)切换为负向编码(即向左)来实现环化。RFpeptides的设计流程如图1e所示,从随机初始化的原子出发,经由RFdiffusion的逐步去噪过程生成大环骨架,随后利用ProteinMPNN进行氨基酸序列设计。设计模型根据AfCycDesign的结构预测计算指标,以及Rosetta的基于物理的界面质量指标进行筛选。

结果

从头设计MCL1与MDM2的大环结合物

首先选择髓系白血病细胞蛋白1(MCL1)作为靶蛋白。它在自噬、细胞存活、DNA修复和细胞增殖中发挥作用,是一个有前景的抗癌治疗靶点。针对MCL1,使用RFpeptides生成了9965种多样的大环肽骨架,随后进行了四轮迭代的ProteinMPNN与Rosetta Relax,为每个骨架设计了四条氨基酸序列。为筛选实验测试的候选分子,使用AfCycDesign从大环序列和靶点结构重新预测设计的大环-靶点复合物。筛选标准包括置信度指标(界面预测比对误差iPAE)以及设计模型与AfCycDesign预测复合物的相似性。为了进一步提高筛选严格性,还使用 RF2重新预测复合物结构。进一步利用Rosetta计算界面和大环质量的基于物理的指标,例如预测结合亲和力(ddG)、空间聚集倾向(SAP)以及界面接触的分子表面积(CMS)。在严格过滤后,最终选择了27个设计进行合成,以及生化和生物物理表征。所有入选的设计都结合在功能相关的MCL1-BH3相互作用位点。所有设计均包含一个α螺旋片段,但它们在序列、大环环化位置和与靶点的相互作用方面各不相同(图2)。除螺旋基序外,所选大环的环区也通过侧链和主链介导的相互作用在结合界面中发挥了重要作用。

Nat Chem Biol|RFpeptides:精准设计高亲和力蛋白结合大环分子

图2 27个选择的MCL1结合设计

在化学合成中,有13个设计的正确环化产物收率过低,无法进一步表征。测试了剩余的14个大环对生物素化MCL1的结合,采用表面等离子体共振(SPR)单循环动力学实验。其中三个大环显示出与MCL1的结合活性,最佳结合物MCB_D2(MCL1 binding design 2)(图3a)的结合亲和力为2μM(图3b)。

图3 MCL1与MDM2大环结合物的从头设计与表征

进一步尝试设计结合MDM2的大环。MDM2是一种与肿瘤抑制蛋白p53相互作用的E3泛素连接酶,在肿瘤生长和存活中具有多种关键作用。生成了10000个大环骨架,长度在16-18 个残基之间,适于化学合成。随后通过多轮ProteinMPNN与Rosetta Relax协议,为每个骨架设计了4条氨基酸序列。设计模型根据AfCycDesign预测的置信度和与设计复合物的相似性,以及Rosetta计算的界面质量指标进行筛选。最终测试了筛选后剩余的8条肽与生物素化MDM2的结合(SPR实验),在100μM浓度下观察到其中3条肽显示结合信号。最佳设计为MDB_D8(图3g),在SPR单循环动力学实验中表现出1.9μM的结合亲和力(图3h)。该设计的计算模型在界面上形成了若干关键接触,与天然MDM2-p53复合物结构中的相互作用类似(图3i)。尽管整体结构不同,SPR实验中筛选出的三个结合物均具有类似的结合基序:来自大环螺旋片段的苯丙氨酸、色氨酸以及亮氨酸或蛋氨酸。

从头设计GABARAP的大环结合物

选择γ-氨基丁酸A型受体相关蛋白(GABARAP)作为靶蛋白。已有研究表明,针对GABARAP的肽类调节剂可能在晚期癌症治疗或作为自噬介导的靶向蛋白降解的嵌合肽中具有潜在的治疗应用。在设计大环肽结合物时,将生成的设计数量加倍,并定义了六个热点残基(Lys46、Lys48、Tyr49、Leu50、Phe60和Leu63),以引导大环主链生成至靶点的特定区域(图4a,d)。共生成20000条大环主链,并使用ProteinMPNN和Rosetta Relax协议设计其氨基酸序列。

图4 GABARAP高亲和力大环结合物的从头设计

最终成功合成了6种设计(纯度>90%),并使用SPR测试其与GABARAP的结合。其中GAB_D8和GAB_D23显示出纳摩尔级亲和力,分别为6nM和36nM(图4b,e)。为进一步验证其结合特性,检测了这些设计是否能在AlphaScreen实验中干扰GABARAP与线性肽K1(该位点的已知结合肽)的相互作用。结果显示GAB_D8和GAB_D23的半数抑制浓度(IC50)分别为0.7nM和2.5nM(图4i)。据经验所知,GAB_D8是迄今最强效的大环型GABARAP结合物。

设计预测结果的大环结合物

进一步尝试设计能够结合无实验结构信息靶点的大环结合物。选择了Rhombotarget A(RbtA) 作为靶点,目前尚无该蛋白的实验解析结构,且基于序列的数据库检索未能找到与其明显匹配的结构。在未设定热点残基的初步设计中,发现了N端结构域的一块潜在结合区域,随后在大规模设计计算中选择了该区域作为目标,并定义Leu144、Phe202、Phe204、Tyr206、Val208、Leu231和Ala269为热点残基以引导肽主链的生成(图5a)。共生成20000条大环主链,并通过多轮ProteinMPNN和Rosetta Relax为每条主链设计四条氨基酸序列。随后基于AfCycDesign的可信度指标和Rosetta的界面质量指标对设计结果进行筛选。最终,根据评价指标,筛选出26个设计进入生化与结构验证阶段。进一步的SPR实验测定表明,最佳结合物RBB_D10的解离常数(Kd)为9.4nM(图5b)。随后进行了结构验证与结合模式确认,结果表明,即便在靶点缺乏深口袋或无已知结构的情况下,RFpeptides依然能够实现高准确和高成功率的大环设计。

图5 RbtA预测结构高亲和力大环结合物的从头设计

总结

在本研究中,作者提出一种基于生成式深度学习的流程RFpeptides,能够针对多种蛋白靶点进行高精度的从头大环结合物设计。设计出的大环结合物对GABARAP和RbtA的亲和力极高,并且大环结合于MCL1、GABARAP和RbtA的晶体结构与设计模型几乎完全一致。RFpeptides设计无需依赖已知的配体或结合伙伴信息,仅凭靶点的结构或序列,即可完成完全从头大环设计,从而能够作用于以往方法难以处理的分子靶点。此外,并不限于生成特定模体或拓扑的大环,其扩散过程可生成具有多种形状与尺寸的大环,并自动选择最适合靶蛋白的拓扑。RFpeptides将能快速实现广泛分子靶点的定制化大环结合物设计,从而加速多种功能性肽的研发。随着深度学习方法和框架的快速进步,尤其是近期全原子扩散模型的出现,未来的目标是将该方法扩展到含有非天然氨基酸、交联剂和多样环化化学策略的大环生成式设计。

参考链接:

https:///10.1038/s41589-025-01929-w