许多在生物过程中发挥重要功能的蛋白质在生理条件下是完全或部分无序的。这类所谓的固有无序蛋白(IDP)在溶液中缺乏明确的三级结构,而是形成由快速互相转换的构象组成的构象集合。对这些异质性构象集合进行结构表征,可以为理解IDP的生理相互作用和功能机制提供重要的见解。

针对上述任务,巴黎西岱大学与达特茅斯学院的研究人员于2025年10月10日在《Nature Communications》上发表文章,题为“Determining accurate conformational ensembles of intrinsically disordered proteins at atomic resolution”。

文章提出的方法将全原子MD模拟与核磁共振(NMR)光谱和小角X射线散射(SAXS)实验数据相结合,采用最大熵重加权方式确定IDP的精确原子分辨率构象集合。实验结果表明,在某些有利情况下,当由不同MD力场得到的IDP构象集合与实验数据初步一致时,采用该方法得到的重加权构象集合能够收敛到高度相似的构象分布。本文提出的重加权方法将成为一种有价值的工具,可用于整合MD模拟与大量实验数据,以确定精确的、力场无关的IDP原子分辨率构象集合,并推动该领域的进一步发展。

代码仓库:

https://github.com/paulrobustelli/Borthakur_MaxEnt_IDPs_2024/

背景

固有无序蛋白(IDP)与多种人类疾病相关,正日益成为药物研发的靶点。确定IDP及其与小分子复合物的精确构象集合,有助于理性设计IDP抑制剂。从实验上获得IDP的原子分辨率构象集合极具挑战性。此外,用于刻画IDP构象集合的实验数据通常也十分稀疏,仅能反映IDP结构特性的一个小子集。许多实验数据也难以直接解释和预测,因为它们对多种结构因素的组合十分敏感。分子动力学(MD)计算机模拟是确定IDP原子分辨率构象集合的一种强有力的计算方法。然而,在实际应用中,MD模拟的结果受到力场精度的限制, 即便是表现最好的力场,仍存在与实验结果的不一致之处。鉴于仅依靠实验或计算方法都难以准确确定IDP的构象集合,综合方法逐渐兴起,即通过利用实验数据来构建或修正计算模型,以获得更精确的IDP构象集合。然而,若要基于任意实验数据集来计算IDP的原子分辨率构象集合,仍存在若干挑战,特别是在整合来自多个实验来源的数据时,研究者往往需要对不同类型约束条件的重要性做出主观判断,而这些判断可能会强烈影响最终构象集合的结构特征。

这些方法学挑战使得IDP结构生物学中的一个重要问题长期悬而未决,即当实验数据足够充分时,是否能确定物理上真实的、原子分辨率的IDP构象集合,其构象特征不依赖于用于生成初始模型的力场?当前研究界正越来越多地利用人工智能和深度生成模型来预测柔性生物分子的构象集合。分子模拟数据也正被用于训练深度生成模型,以预测IDP的构象分布。然而,目前对于什么才是IDP真实构象集合尚无共识,现有模型大多仅基于计算模拟结果进行训练。如果未来能够实现精确、与力场无关的IDP原子分辨率构象集合的确定,这些集合将为机器学习模型的训练与验证提供宝贵的数据,从而推动AI方法预测IDP原子级构象集合的发展,成为MD模拟的高效替代方案。

方法

本研究基于Bussi等人提出的理论框架,其中每个实验数据点i的约束强度由可调正则化参数σᵢ确定。本方法的一个关键特点是在确定重加权时所用的正则化参数时,引入了重加权集合的有效样本量概念,并通过Kish 比率(K)进行量化。简而言之,K衡量的是重加权后原始构象集合中仍保留显著统计权重的帧比例。

为了确定在重加权IDP构象集合时的最优最小K阈值,系统考察了不同实验数据类型下,重加权集合的构象特征随σ_reg(对同一实验数据类型通用的全局正则化项)变化的趋势。目标是确定一个最小的K阈值,使得重加权集合的构象性质(例如二级结构含量、回转半径、分子内接触的分布等)在σ_reg继续减小时仍保持相对稳定;此时,与实验数据的一致性若有进一步提升,主要是通过增加集合稀疏性(即减少高权重构象的数量)而实现的。

最终选择K=0.10作为重加权时的K阈值。对每种实验数据类型,逐步减小σ_reg,直到重加权集合的K降至K<0.10,然后选择最后一个满足K≥0.10的σ_reg值作为该数据类型的最终参数。接着,将所有实验数据作为约束,执行全局重加权。为保证最终集合的规模适中,将各数据类型的σ_reg值乘以一个全局缩放因子σ_reg−Global,并逐步降低该因子,直到重加权集合的K仍满足K≥0.10,该σ_reg−Global即为最终取值。

结果

确定IDP精确原子分辨率构象集合

通过对30微秒的MD模拟结果进行重加权,确定了五种已被广泛研究的IDP(Aβ40、drkN SH3、ACTR、PaaA2和α-synuclein)的构象集合。这些模拟分别采用了三种不同的蛋白力场与水模型组合,简称为a99SB-disp、C22*和C36m。每个无偏MD集合包含29976个结构。采用 Kish比率阈值K=0.10进行重加权,使每个重加权后的集合约包含3000个结构。

以Aβ40的a99SB-disp MD集合为例,展示了该重加权流程的关键步骤。首先,使用前向模型预测无偏MD集合中每一帧对应的实验可观测值(例如作为约束使用的NMR或SAXS数据)。随后,采用Flyvbjerg分块分析法计算每个实验数据点的预测统计误差σᵢ,MD,以反映前向模型的不确定性。接着,分别仅使用单一实验数据类型(如Cα化学位移、J_HNHα耦合常数、SAXS等)进行重加权,并为每种数据类型确定一个正则化参数σ_reg,使得重加权后的集合满足K≥0.10。随后,整合所有实验数据作为约束条件,对每种数据类型的正则化参数乘以一个全局缩放因子(σ_reg−Global),并确定满足K≥0.10的最小σ_reg−Global值(图1A)。

Nat Commun|最大熵重加权助力无序蛋白原子级构象集合解析

结果显示,当减小σ_reg−Global的值(即增强实验约束强度)时,所有类型实验数据的计算值与实验值之间的均方根误差RMSE均降低。这表明该方法能够在不需人工调节约束强度的情况下,同时提升与所有实验数据类型的符合度。还对每种实验数据类型进行了逐一剔除交叉验证测试,结果发现重加权后,对被排除数据的拟合同样得到改进,表明该方法几乎没有过拟合现象(图1B)。

图1 Aβ40无偏与重加权MD构象集合的比较

比较了从30微秒无偏a99SB-disp、C22*和C36m MD模拟中经重加权得到的Aβ40、ACTR、PaaA2、drkN SH3和α-synuclein的构象集合(图1-3)。结果表明,当将该方法应用于使用高精度力场进行的长时间尺度MD模拟所得IDP集合时,重加权后的构象集合与大量NMR与SAXS实验数据(涵盖局部与全局结构信息)之间的符合度极高。对于每种蛋白,均获得至少一个显著优于先前基准研究中所报道的无偏MD集合的重加权集合。

图2 ACTR无偏与重加权MD构象集合的比较

图3 PaaA2无偏与重加权MD构象集合的比较

比较不同力场下IDP构象集合

使用ELViM方法对上述五种IDP的构象集合进行比较。具体步骤如下,首先将三种不同力场(a99SB-disp、C36m、C22*)的无偏MD集合并为单一大集合;随后,计算所有构象间的不相似度矩阵,并使用ELViM算法将该矩阵投影至二维潜在空间。然后,对无偏与重加权集合在ELViM潜在空间上的投影进行核密度估计(KDE),以比较它们的分布差异。Aβ40与ACTR的比较结果如图4与图5所示。需要注意的是,对无偏与重加权集合使用相同的ELViM投影坐标。因此,重加权不会改变点在潜在空间中的位置,只会改变其统计权重。

图4 无偏与重加权MD模拟所得Aβ40构象集合的ELViM投影比较

图5 无偏与重加权MD模拟所得ACTR构象集合的ELViM投影比较

在图6中展示了五种IDP的所有ELViM潜在空间嵌入图。为定量描述不同集合在潜在空间中的相似性,定义了一个密度重叠度量S,其数学形式类似于量子力学中电子波函数重叠积分。若两个分布完全不重叠,S=0;若完全相同,S=1。在图6中以重叠百分比(S×100%)形式展示各蛋白无偏与重加权集合间的重叠度,蓝色三角形表示不同力场下的无偏MD集合间的重叠;红色三角形表示不同力场下的重加权集合间的重叠;对角元素表示重加权集合与其来源的无偏集合之间的重叠。

图6 无偏与重加权MD模拟所得构象集合的ELViM投影重叠度比较

Aβ40和ACTR构象集合的ELViM投影(图4和图5)显示,在无偏的a99SB-disp、C36m和 C22*力场MD模拟中,这些蛋白采样了相同的构象空间区域,但其采样概率不同。当通过实验数据进行重加权后,这些概率得到了调整,从而生成了高度相似的构象分布。重加权后的ACTR与Aβ40构象集合在ELViM潜在空间中共享相似的高密度区域,这一现象与它们的分子内接触图和二级结构倾向的相似性一致(图1)。drkN SH3的无偏集合在初始状态下于ELViM潜在空间中的重叠区域较小,但在重加权后,其重叠显著增加(图6)。

总结

在本研究中,作者开发了一种简单、稳健且全自动最大熵重加权方法,能够利用包含多种实验数据类型的大规模数据集,计算获得IDP原子分辨率的精确构象集合。广泛的交叉验证结果表明,在条件良好的情况下,该重加权方法能够同时提升对多种实验数据(包括NMR和SAXS数据)的拟合度,且过拟合最小,同时保持无偏MD模拟中最主要构象空间区域的合理采样程度。然而,此重加权方案(以及所有最大熵重加权方案)的成功,依赖于作为输入的初始集合必须足够准确且采样充分。如果初始无偏集合未能采样到与实验数据一致的关键构象状态,那么任何重加权方法都无法修正这种分布,也就无法恢复出合理的溶液态构象集合。

本文提出的最大熵重加权方法将成为一项重要工具,用于精确计算IDP的原子分辨率构象集合、评估未来力场的准确性、检验人工智能与机器学习方法生成的IDP构象集合,并最终为训练高效、精准的深度学习IDP构象生成模型提供高质量的数据基础。

参考链接:

https:///10.1038/s41467-025-64098-3