当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

来源:51CTO.COM 2023-09-16 22:13:48 0浏览 收藏

大家好,我们又见面了啊~本文《MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~

蛋白质凭借其复杂的排列和动态功能,通过采用简单构建块的独特排列(其中几何形状是关键)来执行各种生物任务。将这个几乎无限的排列库转化为具有特定功能的蛋白质,可以方便研究人员设计定制蛋白质,用于特定的应用

麻省理工学院(MIT)的 Markus Buehler 提出了一种新的深度学习策略,该策略基于语言模型并结合了Transformer和图神经网络,旨在更好地理解和设计蛋白质

Buehler表示,通过这种新方法,我们可以对基本原理进行建模,并利用大自然创造的一切作为知识基础。他指出,这个模型重新组合了自然构建块,以实现新功能并解决相关任务

这个模型被用来预测二级结构含量(每个残基水平和总体含量)、蛋白质溶解度和测序任务。通过进一步的逆向任务训练,该模型可以设计具有这些特性作为目标特征的蛋白质。这个模型被设计成一个通用框架,完全基于提示,并且可以适应各种下游任务

该研究于2023年8月29日在《应用物理学杂志》上发表,题为「应用生成预训练自回归变压器图神经网络分析和发现新蛋白质」

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

多尺度建模为分层生物材料的分析和设计提供了强大的基础。特别关注构成众多生物和生物衍生材料基础的蛋白质材料。在该分析领域,使用机器学习和相关方法的数据驱动建模已成为一种强大的策略,其中包括分析任务(例如从序列预测属性)和逆向设计任务(设计蛋白质或其他生物材料以满足一组目标特性)。

生成生物材料科学是材料发现的新兴前沿,已应用于蛋白质、有机分子、无机物(包括药物设计)、生物活性材料和建筑材料等。最近,语言模型的使用促进了生物蛋白质材料多尺度建模的发展

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

开发了一种深度语言模型,可以解决正向和逆向蛋白质建模问题。这项研究成果来源于一篇论文

麻省理工学院的研究人员开发了一种灵活的基于语言模型的深度学习策略,用于解决蛋白质建模中的复杂正向和逆向问题。他们将注意力神经网络、Transformer和图卷积架构集成到因果多头图机制中,创建了生成预训练模型MaterioFormer。该模型能够在端到端的序列到特性预测范围内分析蛋白质序列,并生成分子蛋白质结构以满足各种目标特性,所有这些功能都集成在一个模型中

该团队证明了生成语言方法对于蛋白质材料的发现和设计提供了一个灵活的平台。研究人员可以轻松地将这些模型整合到各种应用程序中,解决多个复杂的任务

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

MaterioFormer 模型概述:这是一种基于文本提示输入构建的自回归变换图卷积模型,适用于各种任务。(来源:论文)

虽然该模型总体上很好地解决了多个任务,但使用一次专注于一项任务的专用模型仍然有一定的优势(例如,序列到属性的预测或使用扩散模型的生成任务)。例如,在创建满足特定每个残基二级结构的蛋白质序列的设计任务中,MaterioFormer 有时无法准确反映预测中所需的长度。当从输入蛋白质序列进行二级结构预测时,会看到类似的情况。 

相比之下,仅针对一项生成任务训练的扩散模型在序列长度方面可以更准确地解决该问题。值得关注的是,已有的从整体二级结构内容生成序列的模型,很难识别新的蛋白质设计,而 MaterioFormer 可以非常好地解决这项任务,具有非常高程度的新颖蛋白质序列设计。

MaterioFormer 模型的一个吸引人的方面是其灵活的迭代工作流程,可以融合人类智能和人工智能。用户可以输入提示,进行蛋白质设计,并检查其是否符合设计标准(如果不符合,则重新采样或调整设计参数),然后将输出用于辅助任务。这种迭代过程还可以轻松结合自主实验,为数据生成、收集和进一步训练模型提供额外来源

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

根据论文提供的示例,我们展示了如何根据给定的二级结构内容比例生成新的蛋白质

从更理论的角度来看,这里解决的问题是一个复杂的拼图问题——拼图不仅是氨基酸残基、二级结构,而且是组合这些众多组合空间的数字和各种任务。值得注意的是,这里使用的策略学习了基础和可转移的见解。这产生了大量的条件蛋白质设计以及正向和反向任务解决方案。通过更多的数据,预计可以捕获高度复杂的现象

虽然二级结构预测通常很好,尤其是总体二级结构比率,但与专用溶解度模型相比,溶解度预测的准确性仍然相对较低。然而,对于

重写后的内容:这个训练策略采用基于文本的提示,非常灵活,可以轻松适应各种任务。此外,由于团队训练和预测时将数字编码为文本,研究人员无需专门对数值进行编码。这对任务和预测的开发都有帮助,并且允许在架构中封装高维数据。还有机会引入交叉注意力机制,从而更复杂地合并注意力层和图层中处理的信息

未来的探索可以在正向和反向方向上纳入额外的预测任务,并扩展训练集以纳入更多序列(例如,在预训练阶段)。探索与不同生物分子(例如 mRNA 或 DNA)的相互作用也很有趣,由于灵活的字节级分词器,这些分子可以添加到任务训练中。

此类训练任务可能还会面临多尺度问题,例如不仅编码蛋白质或生物分子的结构,还编码其他特征,如相对浓度、pH值或盐浓度等。这将最终用于构建多模态多尺度模型,该模型可以将从不同的模拟和实验范式中获得的知识融入到从预训练到任务训练的所有阶段

这项研究采用了多尺度方案,以捕获物质的基本构建块与其属性之间复杂的新关系。因此,该研究提供了一种协同学习的能力,可以表达嵌入基础知识中的一组潜力,用于训练模型以利用未知或鲜为人知的交叉关系。从机制上来说,采用一组以复杂分层模式排列的通用构建块来创建紧急功能的方法的基本设计促进了这一点

「一个很大的惊喜是,尽管该模型是为了能够解决多个任务而开发的,但它的表现却异常出色。这可能是因为该模型通过考虑不同的任务学到了更多东西。」他说,「这一变化意味着,研究人员现在可以广泛地思考多任务和多模式模型,而不是为特定任务创建专门的模型。」

尽管我们目前的重点是蛋白质,但这种方法在材料科学中具有巨大的潜力。Buehler表示,我们特别热衷于探索材料失效行为,旨在设计具有特定失效模式的材料

论文链接:https://pubs.aip.org/aip/jap/article/134/8/084902/2908328/生成预训练自回归变换器

好了,本文到此结束,带大家了解了《MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
TikTok 违反儿童隐私保护法,被罚款 3.45 亿欧元TikTok 违反儿童隐私保护法,被罚款 3.45 亿欧元
上一篇
TikTok 违反儿童隐私保护法,被罚款 3.45 亿欧元
Gary Marcus:自动驾驶汽车状况频出,仍未赢得认可
下一篇
Gary Marcus:自动驾驶汽车状况频出,仍未赢得认可
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    18次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    29次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    27次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    30次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    32次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码