当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

来源:机器之心 2024-12-27 18:00:42 0浏览 收藏

学习知识要善于思考,思考,再思考!今天golang学习网小编就给大家带来《原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊》,以下内容主要包含等知识点,如果你正在学习或准备学习科技周边,就都不要错过本文啦~让我们一起来看看吧,能帮助到你就更好了!

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

编辑 | KX

AI 已广泛用于药物发现和材料设计中的分子筛选。当前的自监督分子预训练方法往往忽略了分子的基本化学特性和物理原理。

为了解决这个问题,来自清华大学的研究人员提出了一种称为分数去噪(Fractional denoising,Frad)的分子预训练框架,以学习有效的分子表示。通过这种方式,噪声变得可自定义,允许纳入化学先验,从而大大改善分子分布建模。

实验表明,Frad 始终优于现有方法,在力预测、量子化学特性和结合亲和力任务中,取得最先进的结果。改进的噪声设计提高了力准确性和采样覆盖范围,这有助于创建物理一致的分子表示,最终实现卓越的预测性能。

相关研究以「Pre-training with fractional denoising to enhance molecular property prediction」为题,于 9 月 18 日发布在《Nature Machine Intelligence》上。

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

论文链接:https://www.nature.com/articles/s42256-024-00900-z

AI 用于分子性质预测的挑战

分子性质预测是药物发现和材料设计等各个领域的一项关键任务。传统方法,包括第一性原理计算和湿实验室实验,需要巨大的成本,从而阻碍了具有所需特性的分子的高通量筛选。科学家认为深度学习方法可以降低成本和大幅加速筛选过程。

深度学习分子性质预测方法面临的主要困难是标记分子数据的稀缺性。为了缓解这一困难,已经提出了各种自监督分子预训练方法来利用未标记分子数据中的内在信息。

不幸的是,直接借用计算机视觉和自然语言处理中流行的预训练任务可能不适合分子,因为它们忽略了分子的基本物理原理。

相比之下,在预训练中应用去噪可以解释为等效的力学习,但有限的噪声分布会给分子分布带来偏差。这里的挑战在于有效地模拟全面的分子分布,同时保留力学习的基本物理解释。

Frad:分数去噪的分子预训练框架

鉴于模拟真实分子分布的难度,清华团队选择通过将有关分子分布的化学先验引入噪声设计来更全面地表征分布,由于噪声分布的限制,这在以前的方法中是被禁止的。

因此,研究人员提出了一种称为分数去噪(Frad)的分子预训练框架,证明其具有力学习解释。

具体而言,给定一个平衡分子构象,添加化学感知噪声(CAN)和坐标高斯噪声(CGN)的混合噪声并获得噪声构象。训练模型以从噪声构象中预测 CGN。「分数」(fractional)是指恢复引入的全部噪声的一小部分。特别是,CAN 是可定制的,使 Frad 能够结合化学先验来优化分子分布建模。

受描述分子构象变化的化学先验的启发,研究人员提出了两个版本的 CAN。具体来说,旋转噪声(RN)被用来捕捉单键的旋转,而振动和旋转噪声(VRN)被用来反映各向异性的振动。

Frad 框架的整个流程如下图所示。给定一个平衡分子构象 xeq,添加 CAN 和 CGN 的混合,其中平衡构象是指分子势能面局部最小值处的结构。

然后,训练模型从噪声构象(即 Frad)中预测 CGN,因为它恢复了一部分引入的噪声。具体来说,利用等变图神经网络 (GNN) 从噪声构象中提取特征,然后噪声预测头根据这些特征预测 CGN。

研究使用 TorchMD-NET 作为骨干模型,从 3D 分子输入中获得等变特征。具体来说,理论分析表明,无论 CAN 分布如何,该任务都具有力学习解释,而 CAN 分布会影响力目标和采样分布。因此,精心设计 CAN 以与真实的分子构象分布保持一致,与现有的去噪方法相比,可以实现更精确的力目标和更广泛的采样分布。

在微调过程中,研究人员从预训练权重初始化等变 GNN,随后为每个单独的下游任务量身定制不同的属性预测头。预训练的 GNN 权重以及预测头中的参数在下游标签的监督下继续更新。

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

图示:Frad 框架概述。(来源:论文)

Frad 提升了性质预测性能

为了评估 Frad 在预测分子性质方面的有效性,进行了一系列具有挑战性的下游任务,包括原子级力预测、分子级量子化学性质预测和蛋白质-配体复合物级结合亲和力预测。

Frad 模型与已建立的基线进行了系统比较,包括预训练方法以及未经预训练的性质预测模型。

原子级力预测

首先,评估了 Frad 在各种分子动力学数据集(即 MD17、ISO17 和 MD22)中预测力的表现。

Frad 在八种分子中的七种上的表现都优于基线。特别是与 Frad 方法具有相同主干的去噪预训练方法,即 3D-EMGP 和 Coord 相比,Frad 的优越性显而易见。这凸显了在去噪中引入化学先验以准确模拟分子分布的必要性。在训练集的大小有限的情况下,Frad 预训练始终能大幅度增强主干模型 TorchMD-NET,表明 Frad 有效地学习了分子的内在原理并具有出色的泛化能力。

对于大训练集设置中的苯,在 Frad 的微调过程中出现了过拟合现象,而这在其他分子中并没有观察到。这可能是由于苯的结构相对固定,导致低维特征容易出现过拟合。

ISO17 和 MD22 上的结果如表 1 所示。骨干模型 TorchMD-NET 的性能通过 Frad 预训练不断提高。

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

分子级量子化学性质预测

为了验证 Frad 是否能在不同性质上取得有竞争力的结果,研究人员在 QM9 数据集中的 12 个任务上评估了 Frad(RN) 和 Frad(VRN)。表 2 总结了 Frad 的结果以及预训练和监督基线。

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

总体而言,Frad 超越了监督和预训练方法,并在 12 个目标中的 9 个目标上取得了最先进的结果。此外,在 11 个目标上基于骨干模型 TorchMD-NET 取得了显著的改进,表明 Frad 预训练学到的知识对大多数下游任务都有帮助。

此外,在表格下半部分明显优于去噪预训练方法。特别是,Frad 在所有 12 个任务中都达到或超过了使用相同骨干 TorchMD-NET 的 Coord 方法的结果,表明引入的分布化学先验有助于多类性质。还注意到 VRN 和 VN 的性能相当。以此推测,对于 QM9 数据集中对输入构象不太敏感的任务(与力预测任务相比),各向异性振动噪声的建模可能并不重要。

复合物结合亲和力预测

蛋白质-配体结合亲和力 (LBA) 预测旨在预测蛋白质和配体之间的相互作用强度。研究人员在 ATOM3D 数据集中评估了 Frad 在 LBA 任务上的表现。

在 ATOM3D 预处理之后,Frad 从蛋白质中提取结合口袋,并利用口袋-配体复合物结构作为输入来预测结合亲和力值。结果显示在表 3 中。

原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊

Frad 击败了针对蛋白质表示量身定制的基于序列和基于结构的基线,表明 Frad 是一种适用于小分子和蛋白质的通用表示学习方法。预训练基线 SE(3)-DDM 不评估训练集和测试集之间涉及 60% 蛋白质序列同一性的分割设置,是一种等变 Coord 方法,可对成对原子距离上的高斯噪声进行去噪。同样,Frad 超越了传统的去噪方法,再次表明了引入化学先验的重要性。

未来工作

未来研究的几个探索方向如下:

  • 首先,增加预训练数据量有可能显著提高整体性能。由于获得精确的分子构象成本高昂,目前使用的预训练数据集仍然比二维和一维分子数据集小得多。将来会有更多 3D 分子数据可用。
  • 其次,目前的重点是使用 3D 输入进行属性预测。通过与其他预训练方法相结合,可以生成一个能够跨数据模态处理分子任务的模型。
  • 最后,如何为典型的分子类别设计 CAN 值得研究,例如核酸、蛋白质和材料,以便 Frad 可以有效地应用于更广泛的领域,并加快药物和材料的发现。

通过这些改进,Frad 有可能成为适用于各种分子任务的强大分子基础模型。从而催化药物发现和材料科学等领域的突破。

今天关于《原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于理论的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
MySQL 等于号判断为何会出现“模糊”匹配?MySQL 等于号判断为何会出现“模糊”匹配?
上一篇
MySQL 等于号判断为何会出现“模糊”匹配?
解决电脑无法显示图片的十大常见原因及解决方案
下一篇
解决电脑无法显示图片的十大常见原因及解决方案
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    510次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI边界平台:智能对话、写作、画图,一站式解决方案
    边界AI平台
    探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
    409次使用
  • 讯飞AI大学堂免费AI认证证书:大模型工程师认证,提升您的职场竞争力
    免费AI认证证书
    科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
    419次使用
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    556次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    654次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    561次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码