当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

来源:机器之心 2024-06-20 20:45:31 0浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

为了实现高精度的区域级多模态理解,本文提出了一种动态分辨率方案来模拟人类视觉认知系统。

本文作者来自中国科学院大学LAMP实验室,其中第一作者赵毓钟是中国科学院大学2023级博士生,共同作者刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。

简介

DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制,DynRefer 能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成(region-level captioning)任务,并在上述任务都取得 SOTA 性能。其中在 RefCOCOg 数据集的 region-level captioning 任务上取得了 115.7 CIDEr,显著高于 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • 论文标题:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
  • 论文链接:https://arxiv.org/abs/2405.16071
  • 论文代码:https://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

动机

区域级多模态任务致力于将指定的图像区域转换为符合人类偏好的语言描述。人类完成区域级多模态任务时具有一种分辨率自适应能力,即关注区域是高分辨率的,非关注区域是低分辨率的。然而,目前的区域级多模态大语言模型往往采用固定分辨率编码的方案,即对整张图像进行编码,然后通过 RoI Align 将区域特征提取出来。这种做法缺乏人类视觉认知系统中的分辨率自适应能力,对关注区域的编码效率和能力较低。为了实现高精度的区域级多模态理解,我们提出了一种动态分辨率方案来模拟人类视觉认知系统,如下图所示。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                           图 1:传统的区域级多模态方法(左)与 DynRefer 方法(右)的比较。

方法

1、模拟动态分辨率的图像(Multi-view construction)。由于主流的预训练视觉语言模型(CLIP)只能接收均匀分辨率的输入,我们通过构造多个均匀分辨率的视图来模拟一幅动态分辨率图像。该图像在指代区域具有高分辨率,而在非指代区域低分辨率。具体流程如图 2 上。原始图像 x 被裁剪并调整大小为多个候选视图。裁剪区域的计算方式为 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,其中超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。这里的超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示参考区域的边界框,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示整个图像的尺寸,t 表示插值系数。在训练过程中,我们从候选视图中随机选择 n 个视图,以模拟由于注视和眼球快速运动而生成的图像。这些 n 个视图对应于插值系数 t,即超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。我们固定保留仅包含参考区域的视图(即超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)。经实验证明该视图有助于保留区域细节,对于所有区域多模态任务都至关重要。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                            图 2:DynRefer 训练(上)与 推理(下)。

2、随机动态视图嵌入(Stochastic Multi-view Embedding)。具体流程如图 3 所示。采样的 n 个视图通过冻结的 CLIP 编码成空间特征,然后经过 RoI-Align 模块处理,以获取区域嵌入,即超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。如图 3 左侧所示。由于裁剪、调整大小和 RoI-Align 引入的空间误差,这些区域嵌入在空间上并不对齐。受 deformable convolution 操作启发,我们提出了一个对齐模块,通过将 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA对齐到 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA来减少偏差,其中 图片是仅包含参考区域的视图编码的区域嵌入。对于每个区域嵌入超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,首先将其与 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA连接,然后通过卷积层计算一个二维偏移图。超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA的空间特征然后根据二维偏移重新采样。最后,对齐后的区域嵌入沿通道维度连接并通过 linear 层进行融合。输出进一步通过视觉重采样模块,即 Q-former,进行压缩,从而提取原始图像 x 的参考区域 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA的区域表示(图 3 中的超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                             图 3:DynRefer 网络结构

3、视觉语言对齐 (Vision-language Alignment)。通过随机多视图嵌入模块计算得到的区域表示超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,由三个解码器超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA解码,如图 3(右)所示,分别受三个多模态任务的监督:

i) 图像区域标签生成。我们采用基于查询的轻量级识别解码器进行区域标签生成。解码器 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA 如图 3(右侧)所示。通过使用标签作为查询,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA作为键和值,计算预定义标记的置信度来完成标记过程。我们从真值字幕中解析出标签,以监督识别解码器。ii) 区域 - 文本对比学习。类似于区域标记解码器,解码器 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA定义为基于查询的识别解码器。该解码器计算字幕与区域特征之间的相似性分数,使用 SigLIP loss 进行监督。iii) 语言建模。我们采用预训练的大语言模型 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA将区域表示 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA转换为语言描述。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

图 4:双视图(n=2)DynRefer 模型在区域级多模态任务上的表现。在不同的插值系数 t 下,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。视图一是固定的(超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA),视图二随机选择或固定。

4、在推理过程中,经过训练的 DynRefer 模型通过动态分辨率在图像上执行多模态任务。通过调整采样的 n 个视图的插值系数超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,我们可以得到具有动态分辨率特性的区域表示。为了评估不同动态分辨率下的特性,我们训练了一个双视图(n=2)的 DynRefer 模型,并在四个多模态任务上进行评估。从图 4 中的曲线可以看出,对于没有上下文信息的视图(超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA),属性检测(Attribute detection)获得了更好的结果。这可以解释为这种任务通常需要详细的区域信息。而对于区域级字幕(Region-level captioning)和密集字幕生成(Dense captioning)任务,需要上下文丰富的视图( 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA),以便完整理解参考区域。需要注意的是,过多上下文的视图(超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)会降低所有任务的性能,因为它们引入了过多与区域无关的信息。当已知任务类型时,我们可以根据任务特性采样适当的视图。当任务类型未知时,我们首先构建一组在不同插值系数 t 下的候选视图集合,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。从候选集中,通过贪婪搜索算法采样 n 个视图。搜索的目标函数定义为:

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA其中超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示第 i 个视图的插值系数,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示第 i 个视图,pHASH (・) 表示感知图像哈希函数,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示异或操作。为了从全局视角比较视图的信息,我们利用 "pHASH (・)" 函数将视图从空间域转换到频域,然后编码成哈希码。对于超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA这一项,我们减少上下文丰富视图的权重,以避免引入过多冗余信息。

实验

Region-level Captioning

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在区域字幕生成任务,DynRefer 以更小的模型(4.2B v.s. 7B),在 RefCOCOg 和 VG 两个数据集上、在 METEOR 和 CIDEr 两个指标上都显著超过了 CVPR 2024 中的众多方法,如 RegionGPT,GlaMM,Alpha-CLIP 和 Osprey 等,展现出 DynRefer 巨大的性能优势。

Dense Captioning

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在密集字幕生成任务,在 VG1.2 数据集,DynRefer 相较之前的 SOTA 方法 GRiT 提升了 7.1% mAP。

Open Vocabulary Attribute Detection

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在区域属性检测任务,DynRefer 也取得了 SOTA 的性能。

Open Vocabulary Region Recognition

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在区域识别任务,DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy,比 ICLR 24 的 ASM 高 15.7% mAP。

消融实验

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Line 1-6:随机动态多视图要优于固定视图。
  • Line 6-10:通过最大化信息选择视图优于随机选择视图。
  • Line 10-13:多任务训练可以学习得到更好的区域表征。

可视化

下面几张图展示了 DynRefer 的推理结果,DynRefer 可以用一个模型同时输出区域字幕、标签、属性和类别。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

以上就是《超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA》的详细内容,更多关于产业,DynRefer的资料请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
蔚来被曝重组智驾团队,端到端大模型助力高阶智能驾驶蔚来被曝重组智驾团队,端到端大模型助力高阶智能驾驶
上一篇
蔚来被曝重组智驾团队,端到端大模型助力高阶智能驾驶
3C数码企业新用户同比增长40% 京东3C数码企业及商采618完美收官
下一篇
3C数码企业新用户同比增长40% 京东3C数码企业及商采618完美收官
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 讯飞AI大学堂免费AI认证证书:大模型工程师认证,提升您的职场竞争力
    免费AI认证证书
    科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
    12次使用
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    157次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    187次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    174次使用
  • 稿定PPT:在线AI演示设计,高效PPT制作工具
    稿定PPT
    告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
    161次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码