进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff
本篇文章向大家介绍《进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。
进化产生了多种功能蛋白,可以精确调节细胞过程。近年来出现了深度生成模型,旨在从这种多样性中学习,生成既有效又新颖的蛋白质,最终目标是定制功能以解决当今突出的挑战。
当涉及到在计算机上创造新的蛋白质时,深度生成模型正成为越来越强大的工具。扩散模型是一类生成模型,最近被证明可以生成生理上合理的蛋白质,与自然界中看到的任何实际蛋白质不同,它可以在从头蛋白质设计中提供无与伦比的能力和控制
然而,当前最先进的模型构建蛋白质结构,这严重限制了其训练数据的广度,并将代限制在蛋白质设计空间的微小且有偏差的部分。
微软研究人员开发了 EvoDiff——一种通用扩散框架,通过将进化规模数据与扩散模型的独特调节能力相结合,可以在序列空间中创建可调节的蛋白质。EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。EvoDiff 可以构建基于结构的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架,这一事实证明了基于序列的公式的普遍性。
在蛋白质序列进化中,EvoDiff 是第一个展示扩散生成模型功效的深度学习框架。
EvoDiff 的共同作者、微软高级研究员 Ava Amini 表示:“从 EvoDiff 中我们可以学到的一点是,我们可以并且应该通过序列来生成蛋白质,因为我们能够实现通用性、规模化和模块化。我们的扩散框架使我们有能力做到这一点,并且可以控制我们如何设计这些蛋白质以满足特定的功能目标。”
EvoDiff 的另一位共同作者 Kevin K. Yang 表示,「我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,通过 EvoDiff,我们证明我们实际上可能不需要结构,而是『蛋白质序列就是你所需要的』来可控地设计新蛋白质。」
该研究以《Protein generation with evolutionary diffusion: sequence is all you need》为题,发布在 bioRxiv 预印平台上。
GitHub 地址:https://github.com/microsoft/evodiff
论文链接:https://doi.org/10.1101/2023.09.11.556673
6.4 亿个参数
EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。训练模型的数据来源于用于序列比对的 OpenFold 数据集 UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。
Uniref50是一个包含约4200万个蛋白质序列的数据集。其中的MSA来自OpenFold数据集,包括1600万个UniClust30集群和401,381个MSA,涵盖了140,000个不同的PDB链。关于IDR的信息来自反向同源GitHub
EvoDiff 的主要特征
EvoDiff的主要特征如下:
- 为了生成可管理的蛋白质序列,EvoDiff 将进化规模数据与扩散模型相结合。
- EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。
- 除了生成具有无序部分和基于结构的模型无法获得的其他特征的蛋白质外,EvoDiff 还可以生成功能性结构基序的支架,证明了基于序列的配方的普遍适用性。
EvoDiff 是一种新颖的生成建模系统,用于仅从序列数据创建可编程蛋白质,该系统是通过将进化规模数据集与扩散模型相结合而开发的。其使用离散扩散框架,其中正向过程通过改变其氨基酸特性来迭代地破坏蛋白质序列,并且由神经网络参数化的学习反向过程利用自然框架来预测每次迭代时所做的变化。蛋白质作为氨基酸语言上离散标记的序列。
图 1:EvoDiff,用于仅从序列数据进行可控蛋白质设计。(引自论文)
可以使用反向方法从头开始创建蛋白质序列。与蛋白质结构设计中传统使用的连续扩散公式相比,EvoDiff 中使用的离散扩散公式在数学上取得了显著的改进。多重序列比对 (MSA) 突出显示相关蛋白质组的氨基酸序列的保守模式和变异,从而捕获单个蛋白质序列进化规模数据集之外的进化联系。为了利用这种额外深度的进化信息,他们构建了在 MSA 上训练的离散扩散模型,以产生新颖的单一序列
在序列空间中创建可调节的蛋白质
为了证明可调蛋白质设计的有效性,研究人员对一系列生成活动的谱进行了序列和 MSA 模型的检查(分别为 EvoDiff-Seq 和 EvoDiff-MSA)
他们首先证明了EvoDiff-Seq能够可靠地产生高质量、多样化的蛋白质,准确地反映自然界蛋白质的组成和功能。EvoDiff-MSA通过比对具有相似但独特进化历史的蛋白质来引导新序列的开发。最后,他们表明EvoDiff可以可靠地生成具有IDR的蛋白质,直接克服基于结构的生成模型的关键限制,并且可以通过利用基于扩散的建模框架的调节功能,在没有任何明确结构信息的情况下成功生成功能结构基序的支架
图 2:EvoDiff-MSA 支持进化引导序列生成。(来源:论文)
为了生成具有基于序列限制条件调节的多样化新蛋白质,研究人员提出了一种名为EvoDiff的扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff可以通过从序列数据生成本质上无序的区域和支架结构基序,无条件地采样结构合理的蛋白质多样性
通过引导进行调节,创建的序列可以迭代地调整以满足所需的质量,可以在未来的研究中添加到这些功能中。EvoDiff-D3PM 框架很适合通过指导进行条件调节,因为序列中每个残基的身份都可以在每个解码步骤中进行编辑。
然而,研究人员观察到,OADM 在无条件生成方面通常优于 D3PM,这可能是因为 OADM 去噪任务比 D3PM 更容易学习。不幸的是,OADM 和其他现有的条件 LRAR 模型(如 ProGen)降低了指导的有效性。预计新的蛋白质序列将通过调节 EvoDiff-D3PM 的功能目标(例如序列功能分类器描述的目标)来生成。
EvoDiff 数据要求极低
EvoDiff 的数据要求极低,这意味着它可以轻松适应后续用途,而这只有通过基于结构的方法才能实现。研究人员表明,EvoDiff 可以通过修复来创建 IDR,无需微调,从而避免了基于结构的预测和生成模型的经典陷阱。
图 3:EvoDiff 生成本质上无序的区域。(来源:论文)
使用AlphaFold和相关算法可以预测许多序列的结构,但在点突变方面存在困难,并且可能过于自信地指示虚假蛋白质的结构。然而,由于获取大型测序数据集结构的高昂成本,研究人员可能会受到限制,无法使用新的生物、医学或科学设计选项。为了解锁这些选项,可以通过在特定于应用程序的数据集上微调EvoDiff来进行。这些特定于应用程序的数据集可以来自显示库或大型屏幕的数据集
下一步计划
总之,微软科学家发布了一套离散扩散模型,可用于进行基于序列的蛋白质工程和设计。可以扩展 EvoDiff 模型以进行基于结构或功能的引导设计,并且它们可以立即用于无条件、进化引导和条件创建蛋白质序列。他们希望通过直接用蛋白质语言读取和写入过程,EvoDiff 将为可编程蛋白质创造开辟新的可能性。
「这只是一个包含 6.4 亿参数的模型,如果我们扩展到数十亿个参数,我们可能会看到生成质量的提高,」Alamdari 说道。「虽然我们演示了一些粗粒度的策略,但为了实现更细粒度的控制,我们希望根据文本、化学信息或其他方式来调节 EvoDiff 来指定所需的功能。」
EvoDiff团队计划在下一步中,对实验室生成的蛋白质进行测试,以确定其可行性。如果测试结果证明可行,他们将开始开发下一代框架
以上就是《进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff》的详细内容,更多关于微软,开发的资料请关注golang学习网公众号!

- 上一篇
- 刚刚,2023诺贝尔物理学奖颁给阿秒量级光脉冲!史上第五位女性得主诞生

- 下一篇
- 扩展LLaMA2上下文至100k:MIT和港中文采用LongLoRA方法
-
- 科技周边 · 人工智能 | 35秒前 | 即梦AI高级功能 会员权限开通
- 即梦AI高级功能解锁攻略会员权限快速开通
- 411浏览 收藏
-
- 科技周边 · 人工智能 | 6分钟前 |
- 特斯拉6月自动驾驶出租车细节大揭秘
- 431浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦ai高清封面导出攻略即梦ai缩略图生成教程
- 182浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 企业级AI证件照批量生成利器
- 249浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 即梦ai导出社交媒体,详解各平台适配格式
- 118浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 企业级AI证件照批量生成利器
- 154浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 13次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 14次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 42次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 38次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 36次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览