当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

来源:51CTO.COM 2023-05-05 06:28:02 0浏览 收藏

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。

这几天,一款名为「Relate-Anything-Model(RAM)」的机器学习模型横空出世。它赋予了Segment Anything Model(SAM)识别不同视觉概念之间的各种视觉关系的能力。

据了解,该模型由南洋理工大学MMLab团队和伦敦国王学院和同济大学的VisCom实验室的同学利用闲暇时间合作开发。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

演示地址:https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代码地址:https://github.com/Luodian/RelateAnything

数据集地址:https://github.com/Jingkang50/OpenPSG

效果演示

首先,让我们来看一看「Relate-Anything-Model(RAM)」的应用实例吧!

比如,下面这些关于踢足球、跳舞和交朋友的RAM模型实现的图像分析结果,就让人印象非常深刻,很好地展示了模型出色的性能和多样化应用的潜力。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

预备知识:全场景图生成PSG任务

RAM模型基于ECCV'22 SenseHuman Workshop & 国际算法算例大赛「Panoptic Scene Graph Generation」赛道冠军方案。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

论文地址:https://arxiv.org/abs/2302.02651

该PSG挑战赛奖金百万,共收到来自全球100支团队提交的各种解决方案,其中包括了使用先进的图像分割方法以及解决长尾问题等。此外,竞赛还收到了一些创新性的方法,如场景图专用的数据增强技术。

经过评估,根据性能指标、解决方案的新颖性和意义等方面的考虑,小红书团队的GRNet脱颖而出,成为获胜的方法。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

比赛详情:https://github.com/Jingkang50/OpenPSG

在介绍解决方案之前,我们首先来介绍两个经典的PSG基线方法,其中一个是双阶段方法,另一个是单阶段方法。

对于双阶段基线方法,如图a所示,在第一阶段中,使用预训练的全景分割模型Panoptic FPN从图像中提取特征、分割和分类预测。然后,将每个个体对象的特征提供给经典的场景图生成器,如IMP,以便在第二阶段进行适应PSG任务的场景图生成。该双阶段方法允许经典的SGG方法通过最小的修改适应PSG任务。

如图b所示,单阶段基线方法PSGTR首先使用CNN提取图像特征,然后使用类似DETR的transformer编码器-解码器来直接学习三元组表示。匈牙利匹配器用于将预测的三元组与基本真实三元组进行比较。然后,优化目标最大化匹配器计算的成本,并使用交叉熵进行标签和分割的DICE/F-1损失计算总损失。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

RAM模型架构

在RAM模型的设计过程中,作者参考了PSG冠军方案GRNet的双阶段结构范式。尽管PSG原文的研究中表明,单阶段模型目前的表现优于双阶段模型,然而,单阶段模型通常无法像双阶段模型那样达到良好的分割性能。

经对不同模型结构的观察推测,单阶段模型在关系三元组预测上的优异表现可能是由于来自图像特征图的直接监督信号有利于捕捉关系。

基于这一观察,RAM的设计同GRNet一样,旨在两个模式之间找到一个权衡,通过重视双阶段范式并赋予其类似于单阶段范式中获取全局上下文的能力来实现。

具体地,首先利用Segment Anything Model(SAM)作为特征提取器,识别和分割图像中的物体对象,将来自SAM分割器的特定对象的中间特征映射与其对应的分割融合,得到对象级别特征。

随后,把Transformer作为一种全局上下文模块,将获得的对象级别特征经过线性映射后输入其中。通过Transformer编码器中的交叉注意力机制,输出的对象特征从其他对象中收集了更多的全局信息。

最后,对于Transformer输出的每个对象级别特征,通过self-attention机制进一步丰富上下文信息并使各个物体对象之间完成交互。

请注意,这里还添加了一个类别嵌入以指示对象的类别,并由此得到了成对的物体及它们之间关系的预测。

RAM关系分类

在训练过程中,对于每个关系类别,需要执行关系二元分类任务以确定对象对之间是否存在关系。

和GRNet相似的,对关系二元分类任务还有一些特别的考虑。例如, PSG数据集通常包含两个具有多个关系的对象,例如「人看着大象」和「人喂大象」同时存在。为了解决多标签问题,作者将关系预测从单标签分类问题转换为多标签分类问题。

此外,由于PSG数据集通过要求注释者选择特定和准确的谓词(如「停在」而不是更一般的「在」)来追求精度和相关性,可能不适合学习边界关系(如「在」实际上与「停在」同时存在)。为了解决这个问题,RAM采用了一种自我训练策略,使用自我蒸馏标签进行关系分类,并使用指数移动平均来动态更新标签。

RAM的其他设计

在计算关系二元分类损失时,每个预测对象必须与其对应的基础真实对象配对。匈牙利匹配算法用于此目的。

然而,该算法容易出现不稳定情况,特别是在网络准确度低的早期训练阶段。这可能导致对于相同的输入,匹配产生不同的匹配结果,导致网络优化方向不一致,使训练变得更加困难。

在RAM中,不同于之前方案,作者借助于强大的SAM模型,可以对几乎任何图片进行完整且细致的分割,因此,在匹配预测和GT过程中, RAM自然地设计了新的GT匹配方法:使用PSG数据集来训练模型。

对于每个训练图像,SAM会分割多个物体,但只有少数与PSG的ground truth(GT)mask相匹配。作者根据它们的交集-并集(IOU)分数进行简单的匹配,以便(几乎)每个GT mask都被分配到一个SAM mask中。之后,作者根据SAM的mask重新生成关系图,自然地匹配上了模型的预测。

RAM模型总结

在RAM模型中,作者利用Segment Anything Model(SAM)来识别和分割图像中的物体,并提取每个分割物体的特征。随后使用Transformer模块来使分割物体之间产生交互作用,从而得到新的特征。最后将这些特征经过类别嵌入后,通过self-attention机制输出预测结果。

在训练过程中,特别地,作者提出了新的GT匹配方法并基于该方法,计算预测和GT的配对关系并分类它们的相互关系。在关系分类的监督学习过程中,作者视之为多标签分类问题并采用了一种自我训练策略学习标签的边界关系。

最后,希望RAM模型能够为你带来更多的启发和创新。如果你也想训练会找关系的机器学习模型,可以关注该团队的工作,并随时提出反馈和建议。

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

项目地址:https://github.com/Jingkang50/OpenPSG

好了,本文到此结束,带大家了解了《用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
微软宣布必应聊天开放预览,将增加聊天记录、第三方插件等功能微软宣布必应聊天开放预览,将增加聊天记录、第三方插件等功能
上一篇
微软宣布必应聊天开放预览,将增加聊天记录、第三方插件等功能
重型无人机是真的吗?
下一篇
重型无人机是真的吗?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    27次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    25次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    24次使用
  • 可图AI 2.0:快手旗下新一代图像生成大模型,专业创作者与普通用户的多模态创作引擎
    可图AI 2.0图片生成
    可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
    27次使用
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码