清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型
大家好,我们又见面了啊~本文《清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~
来自清华大学AIR、北京大学、南京大学的研究团队提出了 ESM-AA 模型。该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。
它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。
作为基座模型,ESM-AA 获得了多位学者的关注与广泛讨论(截图见下方),被认为有潜力基于 ESM-AA 开发出可与 AlphaFold3、RoseTTAFold All-Atom 相竞争的模型,为研究不同生物结构间的相互作用开辟了新的道路。当前论文已被 ICML 2024 录⽤。
研究背景
蛋白质是各种生命活动的关键执行者。深入理解蛋白质及其与其他生物结构的相互作用是生物科学中的核心议题,这对靶向药物筛选、酶工程等领域具有显著的实际意义。
因此,如何更好地理解与建模蛋白质也成为了目前 AI4Science 领域的一个研究热点。
近日来,包括 Deepmind、华盛顿大学 Baker 组在内的各大前沿研究机构也针对蛋白质全原子建模问题展开了深入研究,提出了包括 AlphaFold 3、RoseTTAFold All-Atom 等针对蛋白质以及其他生命活动相关分子的全原子尺度建模模型,可以在很高的精度下实现对蛋白质结构、分子结构以及受体-配体结构等全原子尺度的精确预测。
虽然这些模型对于全原子尺度的结构建模取得了重大进展,目前主流的蛋白语言模型仍然无法实现全原子尺度的蛋白质理解与表示学习。
多尺度,下一代蛋白质模型的「必经之路」
以 ESM-2为代表的蛋白质表示学习模型,它们以氨基酸作为构建模型的唯一尺度,这对于专注于处理蛋白质的情境而言是一种合理的方法。
然而,要全面理解蛋白质的本质,关键在于阐述它们与其他生物结构(如小分子、DNA、RNA 等)之间的相互作用。
面对这种需求,需要描述不同结构间复杂的相互作用,单一尺度的建模策略难以提供有效的全面覆盖。
为了克服这一缺陷,蛋白质模型正在经历一场向多尺度模型转变的深刻革新。例如,5月初发表在《Science》杂志上的 RoseTTAFold All-Atom 模型,作为 RoseTTAFold 的后续产品,引入了多尺度概念。
这一模型不仅仅局限于蛋白质结构预测,还拓展到了蛋白质与分子/核酸的对接、蛋白翻译后修饰等更广泛的研究领域。
同时,DeepMind 最新发布的 AlphaFold3 也采用了多尺度建模策略,支持预测多种蛋白复合物的结构,其表现令人瞩目,无疑将对人工智能和生物学领域产生重大影响。
ESM All-Atom,多尺度的蛋白质语言模型基座
RoseTTAFold All-Atom 和 AlphaFold3 对多尺度概念的成功应用启发了一个重要思考,即:作为蛋白质基座模型的蛋白语言模型应如何采纳多尺度技术。基于此,该团队提出了多尺度蛋白质语言模型 ESM All-Atom(ESM-AA)。
简要来说,ESM-AA 通过将部分氨基酸「展开」(Unzip)为对应的原子组成引入了多尺度概念。随后,通过混合蛋白数据与分子数据进行预训练,这使得模型具备了同时处理不同尺度生物结构的能力。
此外,为了帮助模型更好地学习优质的原子尺度信息,ESM-AA 还会利用原子尺度的分子结构数据进行训练。而且通过引入图 2 所示的多尺度位置编码机制,ESM-AA 模型可以很好地对不同尺度的信息进行区分,确保模型能够精确理解残基层面与原子层面的位置与结构信息。
多尺度预训练目标
为了帮助模型学习多尺度信息,该团队为 ESM-AA 模型设计了多种预训练目标。ESM-AA 的多尺度预训练目标包括掩码语言建模(MLM)和成对距离恢复(PDR)。如图 3(a) 所示,MLM 通过遮盖氨基酸和原子,要求模型根据周围的上下文进行预测,这一训练任务可以在氨基酸和原子两个尺度上进行。而 PDR 则要求模型准确预测不同原子之间的欧几里得距离,以训练模型理解原子级的结构信息(如图 3(b) 所示)。
实验验证
性能评估
ESM-AA 模型在多种蛋白-小分子基准任务上进行微调和评估,包括酶-底物亲和力回归任务(结果展示于图 4)、酶-底物对分类任务(结果展示于图 4)和药物-靶标亲和力回归任务(结果展示于图 5)。
结果显示,ESM-AA 在这些任务中优于之前的模型,表明其在氨基酸和原子尺度上充分发挥了蛋白质预训练语言模型的潜力。
图 5:药物-靶标亲和力回归任务性能比较
此外,ESM-AA 模型也在蛋白质接触预测、蛋白功能分类以及分子性质预测等任务上测试了性能。
结果显示,在处理仅涉及蛋白质的任务时,ESM-AA 的表现与 ESM-2 相当;在分子任务上,ESM-AA 模型的性能优于大多数基准模型,与 Uni-Mol 的表现相近。
这表明,ESM-AA 在获取强大分子知识的过程中并未牺牲对蛋白质的理解能力,也进一步说明了 ESM-AA 模型成功复用了 ESM-2 模型的知识,而无需被从头开始重新开发,显著降低了模型训练成本。
可视化分析
为了进一步分析 ESM-AA 在蛋白-小分子基准任务上表现优异的原因,该论文展示了 ESM-AA 模型以及 ESM-2+Uni-Mol 模型组合在该任务中抽取的样本表征分布的可视化结果。
如图 6 所示,ESM-AA 模型所学习的蛋白和小分子表示之间更为紧凑,这预示着两者处于同一表示空间,这是 ESM-AA 模型优于 ESM-2+Uni-Mol 模型的原因,进一步说明了多尺度统一分子建模的优势。
结语
清华 AIR 团队开发的 ESM-AA 是首个融合氨基酸与原子信息处理的蛋白质预训练语言模型。模型通过整合多尺度信息,展现出稳健且卓越的性能,为解决生物结构间相互作用难题提供了新途径。
ESM-AA不仅促进了对蛋白质更深层次的理解,还在多项生物分子任务中表现出色,证明了其在保持蛋白质理解能力的同时可以有效融合分子层面知识,降低了模型训练的成本,为 AI 辅助的生物科学研究开辟了新方向。
论文标题:ESM All-Atom: Multi-Scale Protein Language Model for Unified Molecular Modeling
终于介绍完啦!小伙伴们,这篇关于《清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 百度文心大模型 4.0 Turbo 发布:文心一言用户规模达 3 亿人,单日最高调用 5 亿次

- 下一篇
- 清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型
-
- 科技周边 · 人工智能 | 7分钟前 | 用户画像 精准营销
- 豆包AI如何打造用户画像?精准营销模型全揭秘
- 388浏览 收藏
-
- 科技周边 · 人工智能 | 16分钟前 | 豆包AI 周报生成
- 豆包AI周报这样做效率拉满!手把手教学超简单
- 289浏览 收藏
-
- 科技周边 · 人工智能 | 18分钟前 |
- 手把手教你用豆包AI制作明星表情包,日涨粉2000+
- 117浏览 收藏
-
- 科技周边 · 人工智能 | 22分钟前 | 编程 代码调试
- DeepSeek也能玩编程?代码调试+逻辑优化全攻略!
- 463浏览 收藏
-
- 科技周边 · 人工智能 | 30分钟前 |
- 豆包AI教程!手把手教你用它制作搞笑职场图,涨粉妥妥的!
- 291浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 90次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 98次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 100次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 95次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 93次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览