当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

来源:机器之心 2024-04-26 09:00:36 0浏览 收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

编辑 | 紫罗

可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。

将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。

最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体 binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。

通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通过梯度下降优化客体的生成。最后,利用Transformer将客体转化为SMILES,实现了对客体结构的有效表示和转换。

模型成功地应用于已建立的分子主体系统,葫芦脲和金属有机笼,结果发现了 9 个先前验证的 CB[6] 客体和 7 个未报告的客体,并发现了 4 个未报告的 准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊客体。

该研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》为题,于 2024 年 3 月 8 日发表在《Nature Computational Science》上。

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

论文链接:https://www.nature.com/articles/s43588-024-00602-x

当前主客体化学研究费力且昂贵

字符串,例如 SMILES,分子以「单词」表示,例如「C1C=C1」(环丙烯),是最广泛的分子数字表示形式之一。使用最先进的自然语言处理,这些表示与 AI 技术直接兼容,例如循环神经网络或 Transformer 模型。

将分子表示为 3D 体积(volume)的优点是可以应用最新的 AI 技术,例如卷积神经网络。到目前为止,3D 体积作为分子描述符的大多数应用都集中在预测特性或从头药物设计上。然而,由于缺乏有效的方法将这些体积与清晰的分子结构相关联,目前使用 3D 体积作为分子描述符受到阻碍。

在过去的 40 年里,由于分子 containers(中空有机分子或中空超分子结构)倾向于通过将分子与空腔中的体相隔离来改变分子的化学和物理性质,因此主客体系统得到了越来越多的研究。主客体系统具有广泛的应用,从催化到生物医学工程、材料科学和反应分子的稳定。

葫芦脲(CB[n])和金属有机笼是最成功的分子 containers 设计之一。尽管主客体化学已经取得了显著的成就,但现有系统中未报道的客体的发现或新的主客体系统的优化,仍然是一个费力且昂贵的迭代过程,阻碍了科学进步的步伐。

一种基于电子密度训练的机器学习模型

在此,研究证明,将主体分子表示为 3D 体积(即,用静电势修饰的电子密度)可以通过计算机辅助发现该主体的客体,而无需了解主体的化学结构之外的主客体系统。

在此过程中,研究人员建立了一个 Transformer 模型,可以通过训练将 3D 体积分子描述符有效地转换为 SMILES 表示,从而生成专业化学家可用的分子结构。

研究还发现,通过用静电势数据修饰分子的电子密度,可以将分子有效地表示为 3D 体积,并且这两个特征足以通过使用自回归采样方案优化 3D 描述符之间的体积形状和电荷相互作用来发现主体的客体分子。

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊
图示:使用 Transformer 模型将电子密度转换为 SMILES 表示,然后通过梯度下降优化目标主体的客体。(来源:论文)

Transformer 模型完美地预测了其 SMILES 表示,准确度为 98.125%。单个 token 的预测准确率为 99.114%。Transformer 的解码器也可以被隔离为纯生成模型,如 GPT。

工作流程概述

计算机辅助发现葫芦脲 CB[6] 和金属有机笼 图片的实验验证客体需要一个双层工作流程。首先,设计了一个计算机工作流程来为这两个主体生成潜在客体分子的虚拟库。然后建立了体外工作流程,其中包括由化学专家从这些虚拟库中选择最有希望的客体候选物进行实验测试。

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

图示:通过电子密度体积表示发现新型客体分子。(来源:论文)

CB[6] 和 图片 客体分子的计算机生成是通过上图所示的工作流程实现的,该工作流程包括以下步骤:

(1)3D 电子密度体积训练集源自公开的 QM9 数据集中的分子。然后,通过使用变分自编码器(VAE)对这个 3D 电子密度体积训练集进行建模,创建了一个

「分子生成器」,从而允许生成超出 QM9 数据集派生的 3D 电子密度体积。该 VAE 分子生成器的工作原理是将 3D 电子密度体积编码到一维 (1D) 潜在空间中,然后通过从该 1D 潜在空间进行解码来生成与分子相对应的 3D 电子密度体积。有趣的是,这种方法只能产生化学上合理的分子。

(2)VAE 分子生成器和梯度下降优化算法用于为给定的主体分子生成客体分子库(以 3D 电子密度体积的形式)。客体分子是通过最小化主体和客体电子密度之间的重叠,同时优化它们的静电相互作用而产生的。

(3)由于人类操作员将 3D 电子密度体积转换为化学可解释的结构可能具有挑战性,因此训练了 Transformer 模型将这些体积转换为 SMILES 表示,以一种更容易被专业化学家理解的格式捕获描述分子所需的所有必要信息。在通过计算机模拟生成 CB[6] 和 图片 的潜在客体分子后,建立了体外工作流程来对最有希望的候选分子进行实验测试。

下面描述了所使用的实验过程。

(1) 由于其计算机工作流程生成的 CB[6] 和  图片的客体由化学专家进行分类以进行实验测试。有希望进行测试的客体是根据其与 CB[6] 或 图片 的已知客体的结构相似性、专业化学家的直觉及其商业可用性来选择的。

(2)采用直接准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊滴定法测定 CB[6] 或  图片的亲和力。值得注意的是,在计算机中生成的客体包含先前已知与主体(或密切相关)结合的分子和无视专家直觉的分子的混合物。

两个常见主客体系统的实验验证

研究人员通过实验验证了其工作流程,为两个两个常见的主客体系统:葫芦脲(CB[n])和金属有机笼,成了文献验证和未报告的客体。

算法为 CB[6] 生成了 9 个先前已知的客体。还确定了 CB[6] 的 7 个潜在新客体,化学专家认为值得进行实验测试。CB[6] 对这些新客体的亲和力通过在 HCO2H/H2O 1:1v/v 中直接 图片滴定来评估。

在所有 7 种情况下,都观察到主客体系统的一组信号,表明该系统在 NMR 时间尺度上进行快速交换。络合后,客体分子的脂肪链共振向上场移动,表明它们被封装在 CB[6] 腔内。发现准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊 与 CB[6] 的缔合常数遵循先前建立的趋势,范围从 13.5 M^−1 到 5,470 M^−1。

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

图示:CB[6] 的优化和先前已知的客体以及图片 的优化客体。(来源:论文)

对于图片 ,优化算法仅生成未知的客体分子,四种潜在的未报告客体与 [Pd214](BArF)4 之间的结合强度通过 CD2Cl2 中的直接图片 滴定进行测试。在所有四种情况中,客体对 [Pd214](BArF)4 的亲和力与先前报道的 CD2Cl2 中「小型中性客体」的亲和力较低范围一致(Ka 从 44 M^-1 到 529 M^−1)。

虽然研究重点是使用 SMILES 表示法来表示分子,但也测试了其他类似的格式,例如自引用嵌入字符串 (SELFIES)。

尽管 QM9 数据集包含大小完美的分子,可以成为 CB[6] 等主体的客体,但该研究遇到的一个限制是金属有机笼 图片 具有更大的空腔,需要更大的客体分子。在未来的研究中,将使用包含更大分子的数据集,例如 GDB-17 数据集。

之后,「我们的目标是将新配体的选择嵌入到生成过程中,在自动化合成平台(例如 Chemputer 机器人)上自主合成分子,关闭优化和测试之间的循环,创建一个网络-物理闭环系统。」

今天关于《准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于理论的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
在 Golang 中绘制具有两个半径的圆在 Golang 中绘制具有两个半径的圆
上一篇
在 Golang 中绘制具有两个半径的圆
WIN10魔兽世界没声音的处理操作方法
下一篇
WIN10魔兽世界没声音的处理操作方法
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    41次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码