计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型
各位小伙伴们,大家好呀!看看今天我又给各位带来了什么文章?本文标题是《计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型》,很明显是关于科技周边的文章哈哈哈,其中内容主要会涉及到等等,如果能帮到你,觉得很不错的话,欢迎各位多多点评和分享!
编辑 | 萝卜皮
深度语言模型已经在计算蛋白质工程中展现出最先进的性能,特别是在许多任务中对蛋白质进行表征。最近的研究重点主要在参数计数方面,新模型的容量甚至超过了其所训练数据集的大小。
牛津大学的研究人员提出了一种替代方向。他们展示了通过对密码子而非氨基酸序列进行训练的大型语言模型,可以提供高质量的表征。这种模型在各种任务中表现优异,超过了同类最先进的模型。
在某些任务中,例如物种识别、蛋白质和转录本丰度预测等,该团队发现,基于密码子训练的语言模型优于所有其他已发布的蛋白质语言模型,包括一些包含超过 50 倍训练参数的模型。
该研究以「Codon language embeddings provide strong signals for use in protein engineering」为题于 2024 年 2 月 23 日发布在《Nature Machine Intelligence》。
蛋白质表征学习仍存在不少挑战
预训练语言模型已被广泛应用于计算蛋白质工程的各个领域,成为不可或缺的工具。由于大多数标记蛋白质数据集规模有限,因此首要任务是在大型未标记的序列信息语料库(如UniRef)上对庞大的深度神经网络进行预训练,设定自监督的重建目标。通过自监督训练,模型得到的潜在变量具有高度信息性的特征,即表征学习,这些特征可以在下游任务中发挥作用,尤其是在可用训练数据有限的情况下。
蛋白质表征学习目前是用于预测变异适应性、蛋白质功能、亚细胞定位、溶解度、结合位点、信号肽、翻译后修饰、内在紊乱等的最先进工具的核心,它们在实现准确的免比对蛋白质结构预测的道路上显示出了巨大潜力。因此,改进学习表征是在计算蛋白质工程中实现一致、实质性改进的潜在途径。
到目前为止,为了实现更多信息的表征,研究已经分为两个主要方向:一方面是追求扩大规模的模型,通过增加模型容量来提高性能;另一方面是不断改进模型架构,也在持续提升性能。然而,这两个方向都需要大量的人力和计算资源,并且似乎收益递减。需要对这些方法进行显著优化,以实现更高效的结果。
更丰富的数据是另一条途径
改进学习表征的另一种途径可能是使用包含更丰富信号的生物数据。虽然蛋白质语言模型迄今为止主要关注氨基酸序列,但编码蛋白质的 DNA 序列中还包含其他信息。
蛋白质编码 DNA (cDNA) 的语言依赖于 64 个核苷酸三联体,称为密码子,每个密码子编码一个特定的氨基酸或序列的末端。
虽然这种 64 密码子字母表是高度简并的,大多数氨基酸由多达 6 个不同的密码子编码,但目前的研究表明,编码相同氨基酸(同义)的密码子不能互换使用。同义密码子的使用与蛋白质结构特征相关,近 60 个同义突变与人类疾病有关。
密码子的使用也与蛋白质折叠有关,有充分的证据表明密码子序列的变化会影响折叠动力学、折叠途径,甚至正确折叠的蛋白质的量。这一证据表明,同义密码子的使用包含有价值的生物信息,机器学习模型可以利用这些信息来提高预测任务中的信噪比。
用密码子序列,而不是氨基酸序列
在最新的研究中,牛津大学的研究团队证明在密码子序列上预训练蛋白质语言模型 CaLM(codon adaptation language model,由 8600 万参数进行训练),可以产生能够捕获关键生化特征的信息丰富的蛋白质表征。测试表明,根据密码子而不是氨基酸序列训练的蛋白质表征,在各种下游任务中表现出显著的优势。
该团队的 8600 万参数语言模型的性能,优于其他具有类似容量的模型,在许多情况下,甚至优于参数超过 50 倍的模型。这种性能是由于密码子语言模型能够捕获跨 DNA 序列的密码子使用模式的能力,并且当密码子使用信息被损坏时,这种优势就会消失。
cDNA 训练模型的额外训练成本可以忽略不计,并且似乎可以提高所考虑的所有序列级任务的性能。由于高通量蛋白质测序几乎完全是通过 DNA 序列的翻译来完成的,因此原始编码序列是公开可用的并且可以用于训练。研究人员建议使用 cDNA 而不是简单的氨基酸序列来训练蛋白质语言模型,这为改进计算蛋白质工程提供了一条明确的途径。
密码子语言模型还可以为无需比对的蛋白质结构预测,提供有价值的进化信号,特别是在依赖语言模型来预测蛋白质各部分之间关系的 ESMfold 和 OmegaFold 等方法中。
基于 cDNA 的模型可以恢复更广泛的进化关系,例如同义突变,这在核苷酸水平上很明显,但在氨基酸水平上并不明显。已知同义密码子的使用与结构特征相关,并且密码子使用和蛋白质折叠之间的联系可能为已知无法捕获折叠物理原理的方法提供有价值的信号。
研究人员建议,将密码子语言模型纳入免比对蛋白质结构预测的流程中,很可能为加速高精度蛋白质结构预测提供一条成本可以忽略不计的途径。
提高蛋白质表达质量的两个方向
该团队还提出了进一步提高蛋白质表达质量的两个主要方向。
一是规模扩大。当前的研究使用了一个只有 8600 万个参数的简单模型,这个大小与最新出版物中的标准模型大小相比显得相形见绌。
使用的数据集也相对较小:与 ESM 系列模型中使用的 1.25 亿个序列或某些 ProtTrans 模型中使用的近 5 亿个序列相比,仅 900 万个序列。通过在包含数亿 DNA 序列的数据集上训练数十亿参数模型,存在一条明确的途径来提高表征质量。
另一个潜在的改进方向是开发结合氨基酸和编码序列的多模式模型。该研究的消融实验表明,在缺乏密码子使用信息的情况下,模型性能大幅下降,以至于低于数据集中的每个氨基酸模型。然而,由于模型间接访问氨基酸序列,因此原则上它应该能够访问与仅氨基酸模型相同的信息。
这种差异可能是由于训练期间缺乏氨基酸水平信号造成的,因此结合氨基酸和密码子序列的训练模型可以提高整体模型性能。
更丰富的输入带来新视角
在生物学中,人们非常关注数据集偏差的影响,但相比之下,人们很少甚至没有关注蛋白质工程中更丰富的输入的重要性。随着计算能力和模型架构的进步,利用更丰富的生物数据为提高生物学中机器学习的能力提供了明确的方向。
基于 cDNA 训练的大型语言模型的开发,将使研究「不直接由氨基酸序列确定的蛋白质特性」成为可能。例如,密码子的使用与蛋白质折叠的相关性,实验证据表明密码子序列的变化确实会影响折叠动力学、折叠途径,甚至正确折叠蛋白质的数量。
仔细选择密码子序列是蛋白质科学的一个关键目标,其中表达的 cDNA 的特定序列会对产量产生巨大影响。该团队提出的基于密码子的语言模型,代表了使用机器学习方法来研究蛋白质的这些特性和其他特性的第一步,而这些特性迄今为止还没有被氨基酸语言模型解决。
相关报道:https://www.nature.com/articles/s42256-024-00791-0
今天关于《计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于机器学习,语言模型,蛋白质,产业的内容请关注golang学习网公众号!

- 上一篇
- Hibernate 如何优化数据库查询性能?

- 下一篇
- 如何使用 golang 客户端从 Kubernetes 中驱逐或删除 pod
-
- 科技周边 · 人工智能 | 8小时前 |
- 阿里开源实时数字人对话—OpenAvatarChat
- 419浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 宝马加速推出全球限量M车型,瞄准中日市场
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | 新能源汽车 国产化 第三代半导体 SiC车规级功率半导体 扬杰科技
- 扬杰科技10亿元SiC车规级模块封装项目开工
- 296浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 保时捷911Turbo测试车曝光混动马力或破700匹
- 483浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | QD-OLED 量子点技术 QD-LCD MiniLED MacBookPro
- 2024年量子点薄膜和扩散板收入猛增42%
- 197浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 沃尔沃电动卡车销量破5000,特斯拉Semi量产难
- 334浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 |
- 奇瑞2025年Q1出口突破25万辆,中国车企榜首
- 357浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 |
- 加州大学与Adobe推出多模态融合新框架X-Fusion
- 202浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 12次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 12次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 12次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 17次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 29次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览