当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

来源：机器之心 2024-04-26 09:00:36 0浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

编辑 | 紫罗

可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术，比如深度学习，以便快速地发现各种有趣的化合物。

将分子结构转换为数字表示形式，并开发相应算法生成新的分子结构是进行化学发现的关键。

最近，英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型，用于生成主客体 binders。这种模型能够以简化分子线性输入规范（SMILES）格式读取数据，准确率高达98%，从而实现对分子在二维空间的全面描述。

通过变分自编码器生成主客体系统的电子密度和静电势的三维表示，然后通过梯度下降优化客体的生成。最后，利用Transformer将客体转化为SMILES，实现了对客体结构的有效表示和转换。

模型成功地应用于已建立的分子主体系统，葫芦脲和金属有机笼，结果发现了 9 个先前验证的 CB[6] 客体和 7 个未报告的客体，并发现了 4 个未报告的准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊客体。

该研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》为题，于 2024 年 3 月 8 日发表在《Nature Computational Science》上。

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

论文链接：https://www.nature.com/articles/s43588-024-00602-x

当前主客体化学研究费力且昂贵

字符串，例如 SMILES，分子以「单词」表示，例如「C1C=C1」（环丙烯），是最广泛的分子数字表示形式之一。使用最先进的自然语言处理，这些表示与 AI 技术直接兼容，例如循环神经网络或 Transformer 模型。

将分子表示为 3D 体积（volume）的优点是可以应用最新的 AI 技术，例如卷积神经网络。到目前为止，3D 体积作为分子描述符的大多数应用都集中在预测特性或从头药物设计上。然而，由于缺乏有效的方法将这些体积与清晰的分子结构相关联，目前使用 3D 体积作为分子描述符受到阻碍。

在过去的 40 年里，由于分子 containers（中空有机分子或中空超分子结构）倾向于通过将分子与空腔中的体相隔离来改变分子的化学和物理性质，因此主客体系统得到了越来越多的研究。主客体系统具有广泛的应用，从催化到生物医学工程、材料科学和反应分子的稳定。

葫芦脲（CB[n]）和金属有机笼是最成功的分子 containers 设计之一。尽管主客体化学已经取得了显著的成就，但现有系统中未报道的客体的发现或新的主客体系统的优化，仍然是一个费力且昂贵的迭代过程，阻碍了科学进步的步伐。

一种基于电子密度训练的机器学习模型

在此，研究证明，将主体分子表示为 3D 体积（即，用静电势修饰的电子密度）可以通过计算机辅助发现该主体的客体，而无需了解主体的化学结构之外的主客体系统。

在此过程中，研究人员建立了一个 Transformer 模型，可以通过训练将 3D 体积分子描述符有效地转换为 SMILES 表示，从而生成专业化学家可用的分子结构。

研究还发现，通过用静电势数据修饰分子的电子密度，可以将分子有效地表示为 3D 体积，并且这两个特征足以通过使用自回归采样方案优化 3D 描述符之间的体积形状和电荷相互作用来发现主体的客体分子。

图示：使用 Transformer 模型将电子密度转换为 SMILES 表示，然后通过梯度下降优化目标主体的客体。（来源：论文）

Transformer 模型完美地预测了其 SMILES 表示，准确度为 98.125%。单个 token 的预测准确率为 99.114%。Transformer 的解码器也可以被隔离为纯生成模型，如 GPT。

工作流程概述

计算机辅助发现葫芦脲 CB[6] 和金属有机笼的实验验证客体需要一个双层工作流程。首先，设计了一个计算机工作流程来为这两个主体生成潜在客体分子的虚拟库。然后建立了体外工作流程，其中包括由化学专家从这些虚拟库中选择最有希望的客体候选物进行实验测试。

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

图示：通过电子密度体积表示发现新型客体分子。（来源：论文）

CB[6] 和客体分子的计算机生成是通过上图所示的工作流程实现的，该工作流程包括以下步骤:

（1）3D 电子密度体积训练集源自公开的 QM9 数据集中的分子。然后，通过使用变分自编码器（VAE）对这个 3D 电子密度体积训练集进行建模，创建了一个

「分子生成器」，从而允许生成超出 QM9 数据集派生的 3D 电子密度体积。该 VAE 分子生成器的工作原理是将 3D 电子密度体积编码到一维 (1D) 潜在空间中，然后通过从该 1D 潜在空间进行解码来生成与分子相对应的 3D 电子密度体积。有趣的是，这种方法只能产生化学上合理的分子。

（2）VAE 分子生成器和梯度下降优化算法用于为给定的主体分子生成客体分子库（以 3D 电子密度体积的形式）。客体分子是通过最小化主体和客体电子密度之间的重叠，同时优化它们的静电相互作用而产生的。

（3）由于人类操作员将 3D 电子密度体积转换为化学可解释的结构可能具有挑战性，因此训练了 Transformer 模型将这些体积转换为 SMILES 表示，以一种更容易被专业化学家理解的格式捕获描述分子所需的所有必要信息。在通过计算机模拟生成 CB[6] 和的潜在客体分子后，建立了体外工作流程来对最有希望的候选分子进行实验测试。

下面描述了所使用的实验过程。

（1）由于其计算机工作流程生成的 CB[6] 和的客体由化学专家进行分类以进行实验测试。有希望进行测试的客体是根据其与 CB[6] 或的已知客体的结构相似性、专业化学家的直觉及其商业可用性来选择的。

（2）采用直接准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊滴定法测定 CB[6] 或的亲和力。值得注意的是，在计算机中生成的客体包含先前已知与主体（或密切相关）结合的分子和无视专家直觉的分子的混合物。

两个常见主客体系统的实验验证

研究人员通过实验验证了其工作流程，为两个两个常见的主客体系统：葫芦脲（CB[n]）和金属有机笼，成了文献验证和未报告的客体。

算法为 CB[6] 生成了 9 个先前已知的客体。还确定了 CB[6] 的 7 个潜在新客体，化学专家认为值得进行实验测试。CB[6] 对这些新客体的亲和力通过在 HCO2H/H2O 1:1v/v 中直接滴定来评估。

在所有 7 种情况下，都观察到主客体系统的一组信号，表明该系统在 NMR 时间尺度上进行快速交换。络合后，客体分子的脂肪链共振向上场移动，表明它们被封装在 CB[6] 腔内。发现准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊与 CB[6] 的缔合常数遵循先前建立的趋势，范围从 13.5 M^−1 到 5,470 M^−1。

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊

图示：CB[6] 的优化和先前已知的客体以及

的优化客体。（来源：论文）

对于，优化算法仅生成未知的客体分子，四种潜在的未报告客体与 [Pd214](BArF)4 之间的结合强度通过 CD2Cl2 中的直接滴定进行测试。在所有四种情况中，客体对 [Pd214](BArF)4 的亲和力与先前报道的 CD2Cl2 中「小型中性客体」的亲和力较低范围一致（Ka 从 44 M^-1 到 529 M^−1）。