当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

来源:机器之心 2024-07-02 13:55:09 0浏览 收藏

各位小伙伴们,大家好呀!看看今天我又给各位带来了什么文章?本文标题《登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发》,很明显是关于科技周边的文章哈哈哈,其中内容主要会涉及到等等,如果能帮到你,觉得很不错的话,欢迎各位多多点评和分享!

登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

编辑 | 萝卜皮

一项新的人工智能应用将帮助研究人员提高药物研发能力。

该项目名为 TopoFormer,是由美国密歇根州立大学(Michigan State University)数学系 Guowei Wei 教授领导的跨学科团队开发的。

TopoFormer 将分子的三维信息转化为典型的基于人工智能的药物相互作用模型可以使用的数据,扩展了这些模型预测药物有效性的能力。

「有了人工智能,你可以让药物研发更快、更高效、更便宜。」Wei 说,他同时在生物化学和分子生物学系以及电气和计算机工程系任职。

Wei 教授解释道,在美国,开发一种药物大约需要十年时间,耗资约 20 亿美元。药物试验大约占了一半的时间,而另一半时间则用于发现新的治疗候选药物进行测试。

TopoFormer 有潜力缩短开发时间。这样一来,就可以降低药物开发成本,从而降低下游消费者的药品价格。

该研究以「Multiscale topology-enabled structure-to-sequence transformer for protein–ligand interaction predictions」为题,于 2024 年 6 月 24 日发布在《Nature Machine Intelligence》。

登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

尽管研究人员可以使用计算机模型来辅助药物研发,但由于问题变量众多,因此存在众多局限性。
「我们的身体中有超过 20,000 种蛋白质。」Wei 说,「当一种疾病出现时,其中一些或其中一种就会成为目标。」
那么,第一步就是了解疾病会影响哪种或哪些蛋白质。这些蛋白质也成为研究人员的目标,他们希望找到能够预防、减轻或抵消疾病影响的分子。
「当我有一个目标时,我会尝试针对该特定目标寻找大量潜在药物,」Wei 说。
一旦科学家知道了药物应该针对哪些蛋白质,他们就可以将蛋白质和潜在药物的分子序列输入传统的计算机模型中。这些模型可以预测药物和靶标将如何相互作用,指导开发和在临床试验中测试哪些药物。
虽然这些模型可以仅根据药物和蛋白质的化学组成来预测一些相互作用,但它们也忽略了来自分子形状和三维或 3D 结构的重要相互作用。
20 世纪 60 年代化学家发现的布洛芬就是一个例子。有两种不同的布洛芬分子,它们具有相同的化学序列,但 3D 结构略有不同。只有一种排列方式可以与疼痛相关蛋白质结合并消除头痛。
Guowei Wei 说:「目前的深度学习模型在预测药物或蛋白质如何协同作用时无法解释它们的形状。」
Transformer 架构引入了一种新技术,利用注意力机制进行跨域顺序数据分析。受此启发,Wei 团队开发了一个拓扑 Transformer 模型 TopoFormer,将 Persistent Topological Hyperdigraph Laplacian(PTHL)与 Transformer 框架集成在一起。
与处理蛋白质和配体序列的传统 Transformer 不同,TopoFormer 输入 3D 蛋白质-配体复合物。它通过 PTHL 将这些复合物转换为拓扑不变量和同伦形状的序列,从而在多个尺度上捕捉它们的物理、化学和生物相互作用。
在多样化数据集上进行预训练,TopoFormer 能够理解复杂的分子相互作用,包括分子序列中不明显的立体化学效应。在特定数据集上进行微调,可以捕获复合物内的详细相互作用及其相对于整个数据集的特征,从而增强下游深度学习应用。

登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

图示:TopoFormer 整体模型的示意图。(来源:论文)
  1. 为了集中分析,研究人员使用 20 Å 或更精确的 12 Å 截止值来识别设定距离内的重配体和附近的蛋白质原子。
  2. 然后,TopoFormer 通过拓扑序列嵌入模块将 3D 分子结构转换为拓扑序列,利用 PTHL 进行多尺度分析。此过程将各种物理、化学和生物相互作用嵌入载体序列中。
  3. TopoFormer 使用未标记的蛋白质-配体复合物进行自监督预训练,使用 Transformer 编码器-解码器重建拓扑序列。此阶段通过比较输出和输入嵌入来测量准确性,为模型做好准备,以便在没有标记数据的情况下了解蛋白质-配体动力学。
  4. 预训练后,TopoFormer 进入带标记复合体的监督微调阶段,其中初始嵌入向量成为评分、排名、对接和筛选等下游任务的关键特征。每个任务在预测器模块中都有一个专用的头。
  5. 为了确保准确性并减少偏差,TopoFormer 集成了多个使用不同种子初始化的拓扑变换深度学习模型,并用基于序列的模型对其进行了补充。
  6. 最终输出是这些不同预测的共识,这使得 TopoFormer 成为一个分析蛋白质-配体相互作用的综合模型,既利用了拓扑洞察力,又利用了深度学习。

    登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

    图示:TopoFormer 在评分和排名任务中的表现。(来源:论文)

这种方法允许使用各种维度的有向超边来建模简单的成对连接以外的复杂相互作用。此外,这些边的方向结合了物理和化学特性,例如电负性和电离能,从而提供比传统方法更细致入微的表示。研究人员通过用有向超边区分两个 B7C2H9 异构体证明了这种能力,展示了该方法有效区分元素构型的能力。

在研究蛋白质-配体复合物时,研究人员采用拓扑超有向图作为初始表示,并通过 PTHL 理论进一步增强,以分析其几何和拓扑特征。

从分子结构等物理系统中汲取灵感,其中零维霍奇拉普拉斯算子与定义明确的量子系统的哈密顿量的动能算子有联系,研究人员将离散类比扩展到拓扑超有向图。拉普拉斯矩阵的这些特征值提供了对拓扑对象属性的洞察,类似于物理系统的能量谱。

与传统的持久同源性相比,PTHL 方法通过分析除单纯复形之外的更广泛的结构,标志着一项重大进步。它通过持久拉普拉斯算子的非谐波谱捕获基本同源性信息和几何见解,包括贝蒂数和同伦形状演化。

分析结果显示,与传统同源性相比,它提供了更全面的表征。拉普拉斯算子的零特征值的多重性(对应于贝蒂数)证实了该方法包含条形码信息,为理解蛋白质-配体复合物提供了一个强大的框架。

登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

图示:TopoFormer 在对接和筛选任务中的表现。(来源:论文)

为了捕捉蛋白质-配体复合物中复杂的原子相互作用,包括共价力、离子力和范德华力,研究人员利用 PTHL 进行多尺度分析。该方法允许通过基于过滤参数演化拓扑序列,来检查跨尺度相互作用,从而帮助 Transformer 模型识别每个尺度对结合亲和力等属性的权重。

元素相互作用,包括氢键、范德华力和 π 堆积,是蛋白质-配体复合物稳定性和特异性的基础。为了在元素层面分析这些相互作用,研究人员在拓扑序列嵌入中引入了元素特定分析。

该方法根据蛋白质和配体中的常见重元素构建子超图,生成元素特定的拉普拉斯矩阵来编码复合物内的相互作用。该技术提取详细的物理和化学特征,增强了 Transformer 模型对蛋白质-配体相互作用中复杂动力学的理解。

结语

总而言之,TopoFormer 经过训练可以读取一种形式的信息并将其转换为另一种形式。在这种情况下,它会根据蛋白质和药物的形状获取有关它们如何相互作用的三维信息,并将其重建为当前模型可以理解的一维信息。

新模型经过数万种蛋白质-药物相互作用的训练,其中两种分子之间的每种相互作用都被记录为一段代码或一个「单词」。这些单词串在一起形成对药物-蛋白质复合物的描述,从而创建其形状的记录。

「这样,你就有了许多单词像句子一样串联起来。」Wei 说。

然后,其他预测新药相互作用的模型可以读取这些句子,并为它们提供更多背景信息。如果一种新药是一本书,TopoFormer 可以将一个粗略的故事构思变成一个完整的情节,随时可以写作。

论文链接:https://www.nature.com/articles/s42256-024-00855-1

相关报道:https://phys.org/news/2024-06-drug-discovery-ai-3d-typical.html

终于介绍完啦!小伙伴们,这篇关于《登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
如何解决集成第三方库时出现的冲突?如何解决集成第三方库时出现的冲突?
上一篇
如何解决集成第三方库时出现的冲突?
阿里云:上海可用区 N 网络访问异常,现已恢复
下一篇
阿里云:上海可用区 N 网络访问异常,现已恢复
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    7次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    26次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码