当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

来源:51CTO.COM 2023-05-05 06:28:02 0浏览 收藏

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。

这几天,一款名为「Relate-Anything-Model(RAM)」的机器学习模型横空出世。它赋予了Segment Anything Model(SAM)识别不同视觉概念之间的各种视觉关系的能力。

据了解,该模型由南洋理工大学MMLab团队和伦敦国王学院和同济大学的VisCom实验室的同学利用闲暇时间合作开发。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

演示地址:https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代码地址:https://github.com/Luodian/RelateAnything

数据集地址:https://github.com/Jingkang50/OpenPSG

效果演示

首先,让我们来看一看「Relate-Anything-Model(RAM)」的应用实例吧!

比如,下面这些关于踢足球、跳舞和交朋友的RAM模型实现的图像分析结果,就让人印象非常深刻,很好地展示了模型出色的性能和多样化应用的潜力。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

预备知识:全场景图生成PSG任务

RAM模型基于ECCV'22 SenseHuman Workshop & 国际算法算例大赛「Panoptic Scene Graph Generation」赛道冠军方案。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

论文地址:https://arxiv.org/abs/2302.02651

该PSG挑战赛奖金百万,共收到来自全球100支团队提交的各种解决方案,其中包括了使用先进的图像分割方法以及解决长尾问题等。此外,竞赛还收到了一些创新性的方法,如场景图专用的数据增强技术。

经过评估,根据性能指标、解决方案的新颖性和意义等方面的考虑,小红书团队的GRNet脱颖而出,成为获胜的方法。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

比赛详情:https://github.com/Jingkang50/OpenPSG

在介绍解决方案之前,我们首先来介绍两个经典的PSG基线方法,其中一个是双阶段方法,另一个是单阶段方法。

对于双阶段基线方法,如图a所示,在第一阶段中,使用预训练的全景分割模型Panoptic FPN从图像中提取特征、分割和分类预测。然后,将每个个体对象的特征提供给经典的场景图生成器,如IMP,以便在第二阶段进行适应PSG任务的场景图生成。该双阶段方法允许经典的SGG方法通过最小的修改适应PSG任务。

如图b所示,单阶段基线方法PSGTR首先使用CNN提取图像特征,然后使用类似DETR的transformer编码器-解码器来直接学习三元组表示。匈牙利匹配器用于将预测的三元组与基本真实三元组进行比较。然后,优化目标最大化匹配器计算的成本,并使用交叉熵进行标签和分割的DICE/F-1损失计算总损失。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

RAM模型架构

在RAM模型的设计过程中,作者参考了PSG冠军方案GRNet的双阶段结构范式。尽管PSG原文的研究中表明,单阶段模型目前的表现优于双阶段模型,然而,单阶段模型通常无法像双阶段模型那样达到良好的分割性能。

经对不同模型结构的观察推测,单阶段模型在关系三元组预测上的优异表现可能是由于来自图像特征图的直接监督信号有利于捕捉关系。

基于这一观察,RAM的设计同GRNet一样,旨在两个模式之间找到一个权衡,通过重视双阶段范式并赋予其类似于单阶段范式中获取全局上下文的能力来实现。

具体地,首先利用Segment Anything Model(SAM)作为特征提取器,识别和分割图像中的物体对象,将来自SAM分割器的特定对象的中间特征映射与其对应的分割融合,得到对象级别特征。

随后,把Transformer作为一种全局上下文模块,将获得的对象级别特征经过线性映射后输入其中。通过Transformer编码器中的交叉注意力机制,输出的对象特征从其他对象中收集了更多的全局信息。

最后,对于Transformer输出的每个对象级别特征,通过self-attention机制进一步丰富上下文信息并使各个物体对象之间完成交互。

请注意,这里还添加了一个类别嵌入以指示对象的类别,并由此得到了成对的物体及它们之间关系的预测。

RAM关系分类

在训练过程中,对于每个关系类别,需要执行关系二元分类任务以确定对象对之间是否存在关系。

和GRNet相似的,对关系二元分类任务还有一些特别的考虑。例如, PSG数据集通常包含两个具有多个关系的对象,例如「人看着大象」和「人喂大象」同时存在。为了解决多标签问题,作者将关系预测从单标签分类问题转换为多标签分类问题。

此外,由于PSG数据集通过要求注释者选择特定和准确的谓词(如「停在」而不是更一般的「在」)来追求精度和相关性,可能不适合学习边界关系(如「在」实际上与「停在」同时存在)。为了解决这个问题,RAM采用了一种自我训练策略,使用自我蒸馏标签进行关系分类,并使用指数移动平均来动态更新标签。

RAM的其他设计

在计算关系二元分类损失时,每个预测对象必须与其对应的基础真实对象配对。匈牙利匹配算法用于此目的。

然而,该算法容易出现不稳定情况,特别是在网络准确度低的早期训练阶段。这可能导致对于相同的输入,匹配产生不同的匹配结果,导致网络优化方向不一致,使训练变得更加困难。

在RAM中,不同于之前方案,作者借助于强大的SAM模型,可以对几乎任何图片进行完整且细致的分割,因此,在匹配预测和GT过程中, RAM自然地设计了新的GT匹配方法:使用PSG数据集来训练模型。

对于每个训练图像,SAM会分割多个物体,但只有少数与PSG的ground truth(GT)mask相匹配。作者根据它们的交集-并集(IOU)分数进行简单的匹配,以便(几乎)每个GT mask都被分配到一个SAM mask中。之后,作者根据SAM的mask重新生成关系图,自然地匹配上了模型的预测。

RAM模型总结

在RAM模型中,作者利用Segment Anything Model(SAM)来识别和分割图像中的物体,并提取每个分割物体的特征。随后使用Transformer模块来使分割物体之间产生交互作用,从而得到新的特征。最后将这些特征经过类别嵌入后,通过self-attention机制输出预测结果。

在训练过程中,特别地,作者提出了新的GT匹配方法并基于该方法,计算预测和GT的配对关系并分类它们的相互关系。在关系分类的监督学习过程中,作者视之为多标签分类问题并采用了一种自我训练策略学习标签的边界关系。

最后,希望RAM模型能够为你带来更多的启发和创新。如果你也想训练会找关系的机器学习模型,可以关注该团队的工作,并随时提出反馈和建议。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

项目地址:https://github.com/Jingkang50/OpenPSG

好了,本文到此结束,带大家了解了《用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
微软宣布必应聊天开放预览,将增加聊天记录、第三方插件等功能微软宣布必应聊天开放预览,将增加聊天记录、第三方插件等功能
上一篇
微软宣布必应聊天开放预览,将增加聊天记录、第三方插件等功能
重型无人机是真的吗?
下一篇
重型无人机是真的吗?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    514次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    499次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    1190次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    1138次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    1170次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    1185次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    1169次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码