当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 牛津40万倍加速蛋白自由能计算

牛津40万倍加速蛋白自由能计算

来源:机器之心 2025-03-01 19:27:06 0浏览 收藏

牛津大学研究团队开发了一种新型机器学习模型AEV-PLIG,用于预测蛋白质与配体结合的自由能扰动,速度比传统方法提升40万倍,显著加速药物发现进程。该模型结合原子环境向量和蛋白质-配体相互作用图,并利用注意力图神经网络架构捕捉复杂相互作用。研究人员通过构建更真实的OOD测试集,对AEV-PLIG进行了严格评估,并利用数据增强策略进一步提升了模型的预测准确性和排序能力,缩小了与传统自由能扰动计算的性能差距。这项研究为药物发现提供了更快速、准确的结合亲和力预测方法,具有重要的应用价值。

图片

编辑 | 白菜叶

机器学习为快速准确地预测结合亲和力提供了巨大的希望。然而,目前的模型缺乏稳健的评估,无法完成(命中到)先导化合物优化中遇到的任务,例如对一系列同类配体的结合亲和力进行排序,从而限制了它们在药物发现中的应用。

牛津大学的研究团队首先提出了一种新的基于注意力的图神经网络模型 AEV-PLIG(原子环境向量-蛋白质配体相互作用图),以解决这些问题。其次,他们提出了一种新的、更真实的分布外测试集(out-of-distribution test set),称为 OOD 测试。

研究人员在这个包含 CASF-2016 和用于自由能扰动 (FEP) 计算的测试集上,对该模型进行基准测试,突显了 AEV-PLIG 的竞争性能,同时对具有严格基于物理的方法的机器学习模型提供了现实的评估。

团队还展示了如何利用增强数据(使用基于模板的建模或分子对接生成)来显著改善结合亲和力预测相关性和 FEP 基准上的排名。

该研究以「Narrowing the gap between machine learning scoring functions and free energy perturbation using augmented data」为题,于 2025 年 2 月 8 日发布在《Communications Chemistry》。

图片

预测蛋白质与配体结合时自由能的变化是计算小分子药物发现的基石。它在命中识别过程中至关重要,在命中识别过程中,人们旨在识别对目标具有高亲和力的结合物,以及在命中到先导和先导优化过程中,必须优化结合亲和力以及与安全性和生物功效相关的许多其他特性。

机器学习算法和架构可以预测这些特性,但是由于缺乏相关数据,其应用受的了限制。基于结构的方法需要准确的结合亲和力测量以及以足够分辨率解析蛋白质-配体复合物(尤其是结合口袋)的相应三维 (3D) 结构。

增加训练数据的数量和多样性的一种策略是使用数据增强,其中生成合成数据来模拟真实世界的观察或通过修改现有的实验确定的示例。这类方法已被证明可用于计算机视觉和自然语言处理应用。

然而,由于一些固有的复杂性和物理化学限制,从头生成有意义的生物和化学数据可能具有挑战性。

新策略

在最新研究中,牛津大学的研究人员提出了多种策略来增强机器学习(ML)评分功能的适用性并对其性能提供更现实的评估,特别关注药物发现应用。

他们提出了一种新颖的结合亲和力预测方法 AEV-PLIG,将原子环境向量 (AEV) 与蛋白质-配体相互作用图 (PLIG) 相结合,采用注意力 GNN 架构来捕捉决定结合亲和力的复杂相互作用。

图片
图示:AEV-PLIG 架构。(来源:论文)

研究人员将 AEV-PLIG 与 RFScore、Pafnucy、OnionNet-2、PointVS、SIGN、AEScore 一起进行了评估,使用了多种旨在评估 OOD 数据(OOD 测试)和药物相关系统(FEP 基准)或惩罚记忆(0 配体偏差)的性能的基准,结果显示其性能明显差于广泛使用的评分函数基准 CASF-2016。

在比较不同的 ML 模型时,AEV-PLIG 表现良好,但没有一个模型在所有基准测试中取得明显更好的性能,这凸显了需要一组多样化的测试用例来评估新模型、特性和架构。

图片

图示:AEV-PLIG 模型在 FEP 基准测试中的性能。(来源:论文)

这些策略共同缩小了与 FEP 计算的性能差距(FEP+ 在 FEP 基准上实现了加权平均 PCC 和 Kendall 的 τ 0.68 和 0.49),同时速度提高了约 400,000 倍。

这些测试集最初设计用于对 FEP 的性能进行基准测试和验证,它们不仅为 CADD 应用提供了更真实的预测准确性指示,而且还可以直接比较当前基于 ML 和 MD 的方法。

图片
图示:FEP+ 与 AEV-PLIG 模型针对 FEP 基准中具有 25 个或更多配体的目标进行性能比较。(来源:论文)

鉴于生化领域普遍存在数据稀缺的问题,研究人员探索了使用增强数据,通过对实验结合数据进行训练的模型,但使用基于模板的比对或对接来建模 3D 蛋白质-配体结构。

事实证明,这种数据增强策略是一种有效的方法,可以显著提高 AEV-PLIG 在药物发现系统中的排名能力,其中通过引入小的结构修改来串联设计化合物,旨在增加它们对特定目标的结合亲和力。

研究人员表示,额外的增强数据可以提高未来的性能;鉴于最近引入了精确的(蛋白质-配体)结构预测模型,例如 AlphaFold 3、Umol 和 NeuralPlexer,这些数据很快就会随时可用。

结语

总而言之,AEV-PLIG 在各种基准测试中始终表现出与各种其他基于 ML 的方法相当或更好的性能。使用增强数据进行训练还提供了一种非常有效的方法,可以显著提高药物发现中经常遇到的同类系列的预测相关性和排名。

此外,AEV-PLIG 比 FEP 快几个数量级,需要的每个系统准备最少,并且产生绝对结合亲和力而不是相对自由能差异。

这项研究强调了捕捉蛋白质-配体相互作用的新特征化的潜力、对更强大基准的需求,以及增强数据在训练基于 ML 的评分函数以实现快速准确的结合亲和力预测的新兴作用。

论文链接:https://www.nature.com/articles/s42004-025-01428-y

到这里,我们也就讲完了《牛津40万倍加速蛋白自由能计算》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于机器学习,理论,图神经网络,基准,药物发现的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
一致性Hash:虚拟节点妙解冲突与扩容一致性Hash:虚拟节点妙解冲突与扩容
上一篇
一致性Hash:虚拟节点妙解冲突与扩容
Java连Teradata数据库:常见错误及解决
下一篇
Java连Teradata数据库:常见错误及解决
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    28次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    42次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    39次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    51次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    42次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码