Dogecoin - An open-source peer-to-peer digital currency (访问: hash.cyou 领取999USDT)
AlphaFold 2的问世引发了蛋白质结构及其相互作用建模的革命,使得在蛋白质建模和设计领域有了广泛的应用。Google DeepMind and Isomorphic Labs团队在5月8日Nature的最新论文“Accurate structure prediction of biomolecular interactions with AlphaFold 3”描述了最新推出的AlphaFold 3 模型,采用了一个大幅更新的基于扩散的架构,能够联合预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的结构。新的 AlphaFold 模型在许多先前专门工具上显著提高了准确性:在蛋白质-配体相互作用方面比最先进的对接工具准确得多,比核酸特异性预测器在蛋白质-核酸相互作用方面具有更高的准确性,比 AlphaFold-Multimer v2.3.在抗体-抗原预测准确性方面显著更高。这些结果表明,在单一统一的深度学习框架内实现生物分子空间的高准确建模是可能的。
AF3的整体结构与AlphaFold 2相似,都有一个大的主干,用于演化出化学复合物的成对表示,然后是一个结构模块,利用这种成对表示生成显式的原子位置,但是每个主要组件都有很大的不同。这些修改既是为了满足广泛的化学实体而不过度特殊处理,也是基于对AlphaFold 2在不同修改下性能的观察。在主干中,MSA处理被大幅减少,采用了更小更简单的MSA嵌入块。与AlphaFold 2的原始Evoformer相比,块的数量减少到四个,MSA表示的处理采用了廉价的成对加权平均,后续处理步骤仅使用了成对表示。Pairformer取代了AlphaFold 2的Evoformer成为主要的处理块。它仅操作成对表示和单一表示;MSA表示未保留,所有信息都通过成对表示传递。成对处理和块的数量基本与AlphaFold 2相同。得到的成对和单一表示与输入表示一起传递给新的扩散模块,取代了AlphaFold 2的结构模块。
扩散模块直接在原子坐标和粗糙的抽象令牌表示上操作,而不需要旋转框架或任何等变处理。我们在AlphaFold 2中观察到,消除大部分结构模块的复杂性对预测准确性只有较小影响,而保持主链框架和侧链扭转表示对一般的分子图增加了相当多的复杂性。类似地,AlphaFold 2在训练期间需要精心调整的立体化学违规惩罚来强制执行结果结构的化学合理性。我们使用相对标准的扩散方法,在这种方法中,扩散模型被训练接收“加噪”的原子坐标然后预测真实坐标。这个任务要求网络在多种长度尺度上学习蛋白质结构,其中小噪声下的去噪任务强调了对局部立体化学的理解,而高噪声下的去噪任务则强调了系统的大尺度结构。在推断时,会采样随机噪声,然后通过递归去噪产生最终的结构。重要的是,这是一个生成式的训练过程,会生成一系列答案的分布。这意味着,对于每个答案,局部结构都将被明确定义,即使网络对位置不确定。因此,我们能够避免对残基进行基于扭转的参数化和结构上的违规损失,同时处理通用配体的全部复杂性。与最近的一些工作类似,我们发现,与分子的全局旋转和平移相关的不变性或等变性在体系结构中是不需要的,因此我们省略了它们,以简化机器学习架构。
图2d显示,在初始训练期间,模型迅速学习预测局部结构(所有链内指标迅速上升,并在前20000个训练步骤内达到最大性能的97%),而模型需要较长时间来学习全局结构(界面指标增长缓慢,并且蛋白质-蛋白质界面LDDT仅在60000个步骤后才达到97%)。在AF3的开发过程中,我们观察到一些模型能力相对较早达到顶峰并开始下降(很可能是由于对这种能力的有限训练样本过拟合),而其他能力仍然未被充分训练。我们通过增加/减少相应训练集的采样概率以及使用所有上述指标的加权平均和一些额外指标进行早停来解决这个问题,以选择最佳模型检查点。使用更大的裁剪大小进行的微调阶段改进了所有指标的模型,特别是在蛋白质-蛋白质界面上有很大提升。
研究人员评估了该系统在每种复合物类型的最新界面特定基准上的性能。对于蛋白质-配体界面的性能评估是在PoseBusters基准集上进行的,该集合由2021年或之后发布到PDB的428个蛋白质-配体结构组成。由于我们的标准训练截止日期是在2021年,研究人员单独训练了一个带有较早训练集截止日期的AF3模型。在PoseBusters集合上的准确度报告为蛋白质-配体对中口袋对齐配体RMSD小于2 Å的百分比。基准模型分为两类:一类仅使用蛋白质序列和配体SMILES作为输入,另一类则额外泄露了已解析的蛋白质-配体测试结构的信息。传统的对接方法使用后者的特权信息,尽管在实际使用情况下这些信息不可用。即便如此,AlphaFold 3在不使用任何结构输入的情况下也大大优于诸如Vina等经典对接工具(Fisher精确p=2.27 * 10-13),甚至在不使用任何结构输入的情况下也远远优于所有其他真正的盲对接工具,如RoseTTAFold All-Atom(p=4.45 * 10-25)。扩展数据图3显示了三个示例,其中AlphaFold 3实现了准确预测,但对接工具Vina和Gold没有成功。PoseBusters分析是使用了2019年9月30日的AlphaFold 3训练截止日期,以确保模型未经过PoseBusters结构的训练。为了与RoseTTAFold All-Atom的结果进行比较,我们使用了PoseBusters版本1。版本2(从基准集中去除了晶体接触)的结果,包括质量指标,显示在扩展数据图4b-f和扩展数据表1中。我们使用多个种子以确保正确的立体化学并避免轻微的蛋白质-配体碰撞(而不是像扩散引导一样强制执行),但通常能够产生高质量的立体化学。另外,我们还训练了一个接收“口袋信息”的AlphaFold 3版本,这是一些最近深度学习工作所使用的。
AF3能够比RoseTTAFold2NA更准确地预测蛋白质-核酸复合物和RNA结构。由于RoseTTAFold2NA仅针对1000个残基以下的结构进行验证,研究人员仅使用最近的PDB评估集中1000个残基以下的结构进行比较。AlphaFold 3能够预测具有数千个残基的蛋白质-核酸结构,图3a显示了其中的一个示例。请注意,研究人员没有直接与RoseTTAFold All-Atom进行比较,但基准表明,RoseTTAFold All-Atom在核酸预测方面与RoseTTAFold2NA相当或略低于其准确性。研究人员还评估了AF3在10个公开可用的CASP15 RNA目标上的表现:研究人员在自己和它们的预测的公共子集上的平均性能高于RoseTTAFold2NA和AIchemy_RNA(CASP15中的最佳基于AI的提交,也是最好的AI)。在各自的常见子集上,见扩展数据图5a以获取详细结果。研究人员没有达到最佳人类专家辅助的CASP15提交AIchemy_RNA241的性能水平。由于数据集大小有限,研究人员在这里不报告显著性检验统计数据。有关仅预测核酸(不包括蛋白质)的准确性的进一步分析,请参见扩展数据图5b。
AF3还可以准确预测共价修饰(键合配体、糖基化和修饰的蛋白质残基和核酸碱基)。这些修饰包括任何聚合物残基(蛋白质、RNA或DNA)。我们将准确性报告为成功预测的百分比(口袋RMSD 2 Å)。我们对键合配体和糖基化数据集应用质量过滤器(与PoseBusters一样):我们仅包括具有高质量实验数据的配体(根据RCSB结构验证报告,ranking_model_fit 0.5,即具有中位数以上模型质量的X射线结构)。与PoseBusters集合一样,键合配体和糖基化数据集不是通过与训练数据集的同源性来筛选的。基于结合的聚合物链同源性的筛选(使用聚合物模板相似度 40)只产生了5个键合配体和7个糖基化的聚类。在这里,我们排除了多残基糖基,因为RCSB验证报告没有为它们提供ranking_model_fit值。在所有质量实验数据上,多残基糖基的成功预测百分比(口袋RMSD 2 Å)为42.1%(N = 131聚类),略低于所有质量实验数据上单残基糖基的成功率46.1%(N = 167)。修改的残基数据集与我们的其他聚合物测试集类似进行了过滤:它仅包含具有与训练集低同源性的聚合物链中的修改残基。
尽管AlphaFold 3在建模精度方面取得了巨大进步,但仍有许多目标的精确建模可能具有挑战性。为了获得最高的准确性,可能需要生成大量的预测并对其进行排名,这会增加额外的计算成本。研究人员观察到这种效应最明显的一类目标是抗体-抗原复合物,与其他近期的工作类似。图5a显示,对于AlphaFold 3,随着模型种子数量的增加,排名靠前的预测结果不断提高,甚至在1000个种子时仍然如此(使用蛋白质-蛋白质界面ipTM进行排名)。在其他类别的分子中,一般不会观察到使用多个种子时的这种大幅提高。对于AF3预测,每个模型种子只使用一个扩散样本而不是五个并不会显著改变结果,这表明运行更多的模型种子对于抗体评分的改进是必要的,而不仅仅是增加扩散样本。
分子生物学的核心挑战是理解并最终调控生物系统中复杂的原子相互作用。AlphaFold 3模型朝着这个方向迈出了重要的一步,展示了在一个统一的框架中准确预测各种生物分子系统的结构是可能的。虽然在实现所有类型的相互作用的高度准确预测方面仍存在着重大挑战,但研究人员证明了可以构建一个深度学习系统,它对所有这些相互作用都表现出强大的覆盖和泛化能力。研究人员还证明了缺乏跨实体进化信息并不是阻碍在预测这些相互作用方面取得进展的重大障碍,而且抗体结果的显著改进表明AlphaFold衍生的方法能够在不依赖MSA的情况下对分子相互作用类别的化学和物理进行建模。最后,蛋白质-配体结构预测的大幅改进表明,在通用深度学习框架内,处理化学空间的广泛多样性是可能的,而无需人为地将蛋白质结构预测与配体对接分开。