当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 牛津40万倍加速蛋白自由能计算

牛津40万倍加速蛋白自由能计算

来源：机器之心 2025-03-01 19:27:06 0浏览收藏

牛津大学研究团队开发了一种新型机器学习模型AEV-PLIG，用于预测蛋白质与配体结合的自由能扰动，速度比传统方法提升40万倍，显著加速药物发现进程。该模型结合原子环境向量和蛋白质-配体相互作用图，并利用注意力图神经网络架构捕捉复杂相互作用。研究人员通过构建更真实的OOD测试集，对AEV-PLIG进行了严格评估，并利用数据增强策略进一步提升了模型的预测准确性和排序能力，缩小了与传统自由能扰动计算的性能差距。这项研究为药物发现提供了更快速、准确的结合亲和力预测方法，具有重要的应用价值。

编辑 | 白菜叶

机器学习为快速准确地预测结合亲和力提供了巨大的希望。然而，目前的模型缺乏稳健的评估，无法完成（命中到）先导化合物优化中遇到的任务，例如对一系列同类配体的结合亲和力进行排序，从而限制了它们在药物发现中的应用。

牛津大学的研究团队首先提出了一种新的基于注意力的图神经网络模型 AEV-PLIG（原子环境向量-蛋白质配体相互作用图），以解决这些问题。其次，他们提出了一种新的、更真实的分布外测试集（out-of-distribution test set），称为 OOD 测试。

研究人员在这个包含 CASF-2016 和用于自由能扰动 (FEP) 计算的测试集上，对该模型进行基准测试，突显了 AEV-PLIG 的竞争性能，同时对具有严格基于物理的方法的机器学习模型提供了现实的评估。

团队还展示了如何利用增强数据（使用基于模板的建模或分子对接生成）来显著改善结合亲和力预测相关性和 FEP 基准上的排名。

该研究以「Narrowing the gap between machine learning scoring functions and free energy perturbation using augmented data」为题，于 2025 年 2 月 8 日发布在《Communications Chemistry》。

预测蛋白质与配体结合时自由能的变化是计算小分子药物发现的基石。它在命中识别过程中至关重要，在命中识别过程中，人们旨在识别对目标具有高亲和力的结合物，以及在命中到先导和先导优化过程中，必须优化结合亲和力以及与安全性和生物功效相关的许多其他特性。

机器学习算法和架构可以预测这些特性，但是由于缺乏相关数据，其应用受的了限制。基于结构的方法需要准确的结合亲和力测量以及以足够分辨率解析蛋白质-配体复合物（尤其是结合口袋）的相应三维 (3D) 结构。

增加训练数据的数量和多样性的一种策略是使用数据增强，其中生成合成数据来模拟真实世界的观察或通过修改现有的实验确定的示例。这类方法已被证明可用于计算机视觉和自然语言处理应用。

然而，由于一些固有的复杂性和物理化学限制，从头生成有意义的生物和化学数据可能具有挑战性。

新策略

在最新研究中，牛津大学的研究人员提出了多种策略来增强机器学习（ML）评分功能的适用性并对其性能提供更现实的评估，特别关注药物发现应用。

他们提出了一种新颖的结合亲和力预测方法 AEV-PLIG，将原子环境向量 (AEV) 与蛋白质-配体相互作用图 (PLIG) 相结合，采用注意力 GNN 架构来捕捉决定结合亲和力的复杂相互作用。

图示：AEV-PLIG 架构。（来源：论文）

研究人员将 AEV-PLIG 与 RFScore、Pafnucy、OnionNet-2、PointVS、SIGN、AEScore 一起进行了评估，使用了多种旨在评估 OOD 数据（OOD 测试）和药物相关系统（FEP 基准）或惩罚记忆（0 配体偏差）的性能的基准，结果显示其性能明显差于广泛使用的评分函数基准 CASF-2016。

在比较不同的 ML 模型时，AEV-PLIG 表现良好，但没有一个模型在所有基准测试中取得明显更好的性能，这凸显了需要一组多样化的测试用例来评估新模型、特性和架构。