当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

来源:机器之心 2024-04-30 16:21:11 0浏览 收藏

学习知识要善于思考,思考,再思考!今天golang学习网小编就给大家带来《CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet》,以下内容主要包含等知识点,如果你正在学习或准备学习科技周边,就都不要错过本文啦~让我们一起来看看吧,能帮助到你就更好了!

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显著进展,但仍然面临着模态差异 (modality gap) 的问题,即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  图 1:细粒度语言 - 图像对齐能力对 RIS 的重要性示意图。红色掩码是目前最先进的 RIS 算法之一 LAVT 的预测结果,而黄色虚线框则是正确的标注。

目前的 RIS 研究主要集中在设计新颖的损失函数或引入创新的网络架构 / 模块,以增强语言 - 图像的分布对齐。尽管取得了显著进展,但仍存在两个根本性问题,导致它们在细粒度语言 - 图像对齐(Fine-grained Visual Grounding)方面能力不足:

1. 这些方法主要依赖于句子级别的语言特征进行语言 - 图像对齐,导致它们在文字级别的语言 - 图像对齐能力较为薄弱。
2. 这些方法在训练过程中往往缺乏显式的监督信号,无法有效地教会模型进行细粒度对齐,导致它们在处理复杂的指代语言时表现不佳。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                 图 2:现有算法的缺陷

在近期一篇 CVPR 2024 工作中,来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。通过随机掩码部分文本词汇,并让算法学习预测其真实身份,这一任务旨在显式地教会模型学习文本与视觉对象之间的细粒度对应关系。除此之外,他们还提出了一个新颖的跨模态对齐模块(Cross-modal Alignment Module)和一个新颖的跨模态对齐损失函数 (Cross-modal Alignment Loss),来进一步全面缩小语言和图像之间的模态差距。基于这些技术,他们设计了一个全新的实例分割网络架构 Mask-grounded Network (MagNet)。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  • 论文标题:Mask Grounding for Referring Image Segmentation
  • 论文地址:https://arxiv.org/abs/2312.12198

在 RefCOCO、RefCOCO + 和 G-Ref 数据集上,MagNet 大幅超越了所有之前最优的算法,在整体交并比 (oIoU) 这项核心指标上显著提升了 2.48 个百分点。可视化结果也证实,MagNet 在处理复杂场景和语言表达时具有出色的表现。

方法

MagNet 由 3 个独立互补的模块组成,分别为 Mask Grounding,Cross-modal Alignment Module 和 Cross-modal Alignment Loss。

1.Mask Grounding

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                              图 3:Mask Grounding 流程图

如图 3 所示,在给定输入图像、对应的指代表达以及分割掩码的情况下,作者随机选取句子中的某些词汇,并将其替换为一个特殊的可学习掩码 token。然后,训练模型来预测这些被替换词汇的实际身份。通过成功预测被掩码 token 的身份,模型能够理解文本中的哪些词汇对应于图像的哪些部分,从而在此过程中学习细粒度语言 - 图像对齐能力。为了执行这一辅助任务,首先提取掩码区域的中心坐标,并将其传递给一个 2 层 MLP,以编码分割掩码的特征。同时,使用线性层将语言特征映射到与图像特征相同的维度。然后,使用提出的掩码 token 预测器联合处理这些特征,并使用注意力机制模块来进行掩码 token 预测。虽然 Mask Grounding 需要通过语言编码器进行额外的前向传递来处理被掩码的表达式,但由于语言编码器非常小,整体计算成本几乎可以忽略不计。

2.Cross-modal Alignment Module (CAM)

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                 图 4:Cross-modal Alignment Module 结构图

如图 4 所示,为了进一步提升模型性能,作者还提出了跨模态对齐模块(CAM),通过在执行语言 - 图像融合之前将全局上下文先验注入图像特征来增强语言 - 图像对齐效果。CAM 首先使用不同窗口大小的池化操作生成 K 个不同金字塔尺度的特征图。然后,每个特征图通过一个 3 层 MLP 以更好地提取全局信息,并与另一模态进行交叉注意力操作。接下来,所有输出特征通过双线性插值上采样到原始特征图尺寸,并在通道维度上拼接。随后,使用一个 2 层 MLP 将拼接后的特征通道数减少回原始维度。为了防止多模态信号淹没原始信号,使用一个带有 Tanh 非线性的门控单元来调制最终输出。最后,这个门控后的特征被加回到输入特征中,然后传递给图像或语言编码器的下一阶段。在作者的实现中,CAM 被加到图像和语言编码器的每个阶段末尾。

3.Cross-modal Alignment Loss (CAL)

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                             图 5:Cross-modal Alignment Loss 公式

为了监督模型对齐语言和图像特征,作者提出了一种新颖的跨模态对齐损失函数 (CAL)。图五展示了该损失函数的数学公式。与之前工作不同,CAL 同时考虑了像素到像素 (Pixel-to-Pixel,P2P) 和像素到文本 (Pixel-to-Text,P2T) 之间的对齐。精确的像素到像素对齐能确保模型能分割输出具有准确形状和边界的分割掩码,而精确的像素到文本对齐能使模型能够正确地将文本描述与其匹配的图像区域进行合理的关联。

实验

在表 1 中,作者使用 oIoU 指标评估 MagNet,并与现有最先进的算法做性能比较。测试数据为 RefCOCO、RefCOCO + 和 G-Ref。在单一和多个 / 额外数据集的设置下,MagNet 的性能在这些数据集上全都是 SOTA。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                        表 1:实验结果

可视化结果CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
                               图 6:MagNet 可视化结果

在图 6 中,我们可以看到,MagNet 的可视化结果也非常突出,在许多困难的场景中都比对比基准 LAVT 强很多。

小结

这篇文章深入探讨了指代分割(RIS)领域的挑战和当前存在的问题,特别是在细粒度语言 - 图像对齐方面的不足。针对这些问题,清华大学和博世中央研究院的研究人员提出了一种新的方法,名为 MagNet,通过引入辅助任务 Mask Grounding、跨模态对齐模块和跨模态对齐损失函数,全面提升了语言和图像之间的对齐效果。实验证明,MagNet 在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均取得了显著优异的性能,超越了之前最先进的算法,表现出了强大的泛化能力。可视化结果也证实了 MagNet 在处理复杂场景和语言表达时的优越性。这一研究为指代分割领域的进一步发展提供了有益的启示,有望推动该领域取得更大的突破。

团队介绍

此论文来源于清华大学自动化系(https://www.au.tsinghua.edu.cn)和博世中央研究院(https://www.bosch.com/research/)。其中论文一作庄荣贤为清华大学在读博士生,并在博世中央研究院实习;项目负责人为邱旭冲博士,任博世中央研究院资深研发科学家;通讯作者为清华大学自动化系黄高教授。

文中关于工程,指代分割的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
WIN7电脑配置可交换显卡无法打开的处理步骤WIN7电脑配置可交换显卡无法打开的处理步骤
上一篇
WIN7电脑配置可交换显卡无法打开的处理步骤
CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
下一篇
CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    41次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码