当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

来源:机器之心 2024-08-05 18:15:45 0浏览 收藏

偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

编辑 | 萝卜皮

蛋白质糖基化是糖基对蛋白质进行的一种翻译后修饰,在细胞的多种生理和病理功能中起着重要作用。

糖蛋白质组学是在蛋白质组范围内研究蛋白质糖基化,利用液相色谱与串联质谱 (MS/MS) 联用技术获取糖基化位点、糖基化水平和糖结构的组合信息。

然而,由于结构决定离子的出现有限,目前糖蛋白质组学的数据库搜索方法通常难以确定聚糖结构。虽然光谱搜索方法可以利用碎片强度来促进糖肽的结构鉴定,但是光谱库构建的困难阻碍了它们的应用。

在最新的研究中,复旦大学的研究人员提出了 DeepGP,一种基于 Transformer 和图神经网络的混合深度学习框架,用于预测糖肽的 MS/MS 光谱和保留时间(RT)。

两个图神经网络模块分别用于捕获分支糖结构和预测糖离子强度。此外,还实施了预训练策略以缓解糖蛋白质组学数据的不足。

该研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」为题,于 2024 年 7 月 30 日发布在《Nature Machine Intelligence》。

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

蛋白质翻译后修饰(PTMs)显著增加了蛋白质组的复杂性。糖基化作为最重要的 PTMs 之一,影响超过 50% 的哺乳动物蛋白质,在许多生理和病理过程中起关键作用。

糖基化过程中,糖分子附着在特定氨基酸残基的侧链上,产生结构异质性,导致糖肽异构体的多样性,增加了识别难度。

液相色谱串联质谱(LC-MS/MS)是主要技术,通过碎片离子和分子量结合 RT 来鉴定糖肽。单靠质荷比(m/z)不足以确定糖结构,因此科学家采用光谱匹配方法提高识别灵敏度。然而,构建糖肽 MS/MS 光谱库成本高昂且复杂。

近年来,深度学习在肽 MS/MS 光谱预测方面取得进展。不过,当前糖肽组学数据集的数量相对较少,缺乏标准化的生成糖肽质谱数据的协议,这限制了用于深度学习模型训练的合适数据的可用性。

为此,复旦大学的研究人员提出了 DeepGP,这是一种基于深度学习的混合端到端框架,用于完整的 N-糖肽 MS/MS 光谱和 RT 预测。深度学习框架由预训练的 Transformer 模块和两个图神经网络 (GNN) 模块组成。

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

图示:模型架构和糖肽 MS/MS 光谱预测。

DeepGP 模型

  • 接受糖肽作为输入
  • 编码糖肽特征:

    1. 糖结构
    2. 氨基酸序列
    3. PTM 类型
    4. PTM 位置
    5. 前体电荷状态
  • 糖结构通过 GNN 嵌入,将糖肽转化为图:

    • 节点:单糖

      糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

      图示:基于 DeepGP 在合成数据集上对相似聚糖组成进行区分。(来源:论文)

    两个 GNN 模块捕获糖结构及预测糖离子强度
    研究人员评估了三种 GNN 架构,包括图卷积网络 (GCN)、图同构网络 (GIN) 和图注意网络 (GAT),用于糖嵌入和 B/Y 离子强度预测。
    GCN 利用卷积操作获取节点表示,并实施消息传递协议来聚合相邻节点的表示;GIN 在图同构测试中表现出色;GAT 结合注意机制,使模型能够关注输入的最相关部分。
    实验结果表明,GCN 在糖嵌入任务中表现最佳,而 GIN 在 B/Y 离子强度预测任务中表现优异,因此 GCN 和 GIN 被选用进行相应分析。

    糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

    图示:DeepGP 在 MS/MS 预测中的表现。(来源:论文)

预训练策略缓解糖蛋白质组学数据不足

DeepGP 使用大量无标注的自然语言数据进行预训练,类似于 BERT 等模型。预训练使模型在正式训练前具备知识基础,从而增强应对小规模标注数据的性能。

多个生物数据集上的测试

研究人员使用小鼠和人类样本数据集,证明了 DeepGP 在 MS/MS 和 RT 预测方面的高精度。

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

图示:DeepGP 结合 pGlyco3(一种糖肽搜索方法)进行糖肽鉴定。(来源:论文)

DeepGP 在合成和生物数据集上的全面基准测试验证了其区分相似聚糖的有效性。DeepGP 与数据库搜索相结合可以提高糖肽检测灵敏度。

论文链接:
https://www.nature.com/articles/s42256-024-00875-x

今天关于《糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于理论的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
强势开始:为成功做好准备的第一天仪式强势开始:为成功做好准备的第一天仪式
上一篇
强势开始:为成功做好准备的第一天仪式
您可以在 4 中使用的顶级 Javascript 功能
下一篇
您可以在 4 中使用的顶级 Javascript 功能
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI边界平台:智能对话、写作、画图,一站式解决方案
    边界AI平台
    探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
    423次使用
  • 讯飞AI大学堂免费AI认证证书:大模型工程师认证,提升您的职场竞争力
    免费AI认证证书
    科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
    427次使用
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    563次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    666次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    577次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码