当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

来源:机器之心 2024-08-05 18:15:45 0浏览 收藏

偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

编辑 | 萝卜皮

蛋白质糖基化是糖基对蛋白质进行的一种翻译后修饰,在细胞的多种生理和病理功能中起着重要作用。

糖蛋白质组学是在蛋白质组范围内研究蛋白质糖基化,利用液相色谱与串联质谱 (MS/MS) 联用技术获取糖基化位点、糖基化水平和糖结构的组合信息。

然而,由于结构决定离子的出现有限,目前糖蛋白质组学的数据库搜索方法通常难以确定聚糖结构。虽然光谱搜索方法可以利用碎片强度来促进糖肽的结构鉴定,但是光谱库构建的困难阻碍了它们的应用。

在最新的研究中,复旦大学的研究人员提出了 DeepGP,一种基于 Transformer 和图神经网络的混合深度学习框架,用于预测糖肽的 MS/MS 光谱和保留时间(RT)。

两个图神经网络模块分别用于捕获分支糖结构和预测糖离子强度。此外,还实施了预训练策略以缓解糖蛋白质组学数据的不足。

该研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」为题,于 2024 年 7 月 30 日发布在《Nature Machine Intelligence》。

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

蛋白质翻译后修饰(PTMs)显著增加了蛋白质组的复杂性。糖基化作为最重要的 PTMs 之一,影响超过 50% 的哺乳动物蛋白质,在许多生理和病理过程中起关键作用。

糖基化过程中,糖分子附着在特定氨基酸残基的侧链上,产生结构异质性,导致糖肽异构体的多样性,增加了识别难度。

液相色谱串联质谱(LC-MS/MS)是主要技术,通过碎片离子和分子量结合 RT 来鉴定糖肽。单靠质荷比(m/z)不足以确定糖结构,因此科学家采用光谱匹配方法提高识别灵敏度。然而,构建糖肽 MS/MS 光谱库成本高昂且复杂。

近年来,深度学习在肽 MS/MS 光谱预测方面取得进展。不过,当前糖肽组学数据集的数量相对较少,缺乏标准化的生成糖肽质谱数据的协议,这限制了用于深度学习模型训练的合适数据的可用性。

为此,复旦大学的研究人员提出了 DeepGP,这是一种基于深度学习的混合端到端框架,用于完整的 N-糖肽 MS/MS 光谱和 RT 预测。深度学习框架由预训练的 Transformer 模块和两个图神经网络 (GNN) 模块组成。

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

图示:模型架构和糖肽 MS/MS 光谱预测。

DeepGP 模型

  • 接受糖肽作为输入
  • 编码糖肽特征:

    1. 糖结构
    2. 氨基酸序列
    3. PTM 类型
    4. PTM 位置
    5. 前体电荷状态
  • 糖结构通过 GNN 嵌入,将糖肽转化为图:

    • 节点:单糖

      糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

      图示:基于 DeepGP 在合成数据集上对相似聚糖组成进行区分。(来源:论文)

    两个 GNN 模块捕获糖结构及预测糖离子强度
    研究人员评估了三种 GNN 架构,包括图卷积网络 (GCN)、图同构网络 (GIN) 和图注意网络 (GAT),用于糖嵌入和 B/Y 离子强度预测。
    GCN 利用卷积操作获取节点表示,并实施消息传递协议来聚合相邻节点的表示;GIN 在图同构测试中表现出色;GAT 结合注意机制,使模型能够关注输入的最相关部分。
    实验结果表明,GCN 在糖嵌入任务中表现最佳,而 GIN 在 B/Y 离子强度预测任务中表现优异,因此 GCN 和 GIN 被选用进行相应分析。

    糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

    图示:DeepGP 在 MS/MS 预测中的表现。(来源:论文)

预训练策略缓解糖蛋白质组学数据不足

DeepGP 使用大量无标注的自然语言数据进行预训练,类似于 BERT 等模型。预训练使模型在正式训练前具备知识基础,从而增强应对小规模标注数据的性能。

多个生物数据集上的测试

研究人员使用小鼠和人类样本数据集,证明了 DeepGP 在 MS/MS 和 RT 预测方面的高精度。

糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊

图示:DeepGP 结合 pGlyco3(一种糖肽搜索方法)进行糖肽鉴定。(来源:论文)

DeepGP 在合成和生物数据集上的全面基准测试验证了其区分相似聚糖的有效性。DeepGP 与数据库搜索相结合可以提高糖肽检测灵敏度。

论文链接:
https://www.nature.com/articles/s42256-024-00875-x

今天关于《糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于理论的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
强势开始:为成功做好准备的第一天仪式强势开始:为成功做好准备的第一天仪式
上一篇
强势开始:为成功做好准备的第一天仪式
您可以在 4 中使用的顶级 Javascript 功能
下一篇
您可以在 4 中使用的顶级 Javascript 功能
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    514次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    499次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO  AI Mermaid 流程图:自然语言生成,文本驱动可视化创作
    AI Mermaid流程图
    SEO AI Mermaid 流程图工具:基于 Mermaid 语法,AI 辅助,自然语言生成流程图,提升可视化创作效率,适用于开发者、产品经理、教育工作者。
    406次使用
  • 搜获客笔记生成器:小红书医美爆款内容AI创作神器
    搜获客【笔记生成器】
    搜获客笔记生成器,国内首个聚焦小红书医美垂类的AI文案工具。1500万爆款文案库,行业专属算法,助您高效创作合规、引流的医美笔记,提升运营效率,引爆小红书流量!
    391次使用
  • iTerms:一站式法律AI工作台,智能合同审查起草与法律问答专家
    iTerms
    iTerms是一款专业的一站式法律AI工作台,提供AI合同审查、AI合同起草及AI法律问答服务。通过智能问答、深度思考与联网检索,助您高效检索法律法规与司法判例,告别传统模板,实现合同一键起草与在线编辑,大幅提升法律事务处理效率。
    420次使用
  • TokenPony:AI大模型API聚合平台,一站式接入,高效稳定高性价比
    TokenPony
    TokenPony是讯盟科技旗下的AI大模型聚合API平台。通过统一接口接入DeepSeek、Kimi、Qwen等主流模型,支持1024K超长上下文,实现零配置、免部署、极速响应与高性价比的AI应用开发,助力专业用户轻松构建智能服务。
    413次使用
  • 迅捷AIPPT:AI智能PPT生成器,高效制作专业演示文稿
    迅捷AIPPT
    迅捷AIPPT是一款高效AI智能PPT生成软件,一键智能生成精美演示文稿。内置海量专业模板、多样风格,支持自定义大纲,助您轻松制作高质量PPT,大幅节省时间。
    395次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码