当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

来源:机器之心 2024-08-24 08:01:01 0浏览 收藏

今天golang学习网给大家带来了《浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

该论文作者均来自于浙江大学李玺教授团队,论文第一作者为博士生苏伟同学,通讯作者为李玺教授(IET Fellow,国家杰青)。李玺教授团队近年来在国际权威期刊(如 TPAMI、IJCV 等)和国际顶级学术会议(ICCV、CVPR、ECCV 等)上发表 180 余篇 CV/AIGC 相关的研究工作,和国内外知名高校、科研机构广泛开展合作。

作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

目前的研究大多集中在设计高效的跨模态交互模块以提升任务精度,缺少对视觉编码器探索。常见做法是利用在分类、检测任务上预训练的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等。这些模型以滑动窗口或划分 patch 的方式遍历图像所有的空间位置来提取特征,其计算复杂度会随图像分辨率快速增长,在基于 Transformer 的模型中更加明显。

由于图像的空间冗余特性,图像中存在大量低信息量的背景区域以及与指代表达无关的区域,以相同的方式在这些区域提取特征会增加计算量但对有效特征提取没有任何帮助。更加高效的方式是提前预测图像区域的文本相关性和内容的丰富程度,对文本相关的前景区域充分提取特征,对背景区域粗略提取特征。对于区域预测,一个较为直观的方式是通过图像金字塔来实现,在金字塔顶层的粗粒度图像中提前辨识背景区域,之后逐步加入高分辨率的细粒度前景区域。

基于以上分析,我们提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在图像金字塔中逐层 scan,从低分辨率的粗尺度图像开始,逐步过滤掉指代表达无关 / 背景区域来降低计算浪费,使模型更多地关注前景 / 任务相关区域。

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

  • 论文标题:ScanFormer: Referring Expression Comprehension by Iteratively Scanning
  • 论文链接:https://arxiv.org/pdf/2406.18048

方法介绍

一、Coarse-to-fine 迭代感知框架

为简化结构,我们采用统一文本和视觉模态的 ViLT [1] 模型,并将其沿深度维度分为 Encoder1 和 Encoder2 两部分以用于不同的任务。

首先,提取文本特征并将其存入 KV Cache;然后构造图像金字塔并从金字塔顶层依次往下迭代,在每次迭代中,输入当前尺度被选择的 patch,Encoder1 用于预测每个 patch 对应的下一个尺度的细粒度 patch 的选择情况,特别地,顶层图像的 patch 全部被选上,以保证模型能获得粗粒度的全图信息。Encoder2 进一步提取特征并基于当前尺度的 [cls] token 来预测该尺度的 bounding box。

与此同时,Encoder1 和 Encoder2 的中间特征会被存入 KV Cache 以方便被后续的尺度利用。随着尺度的增加,细粒度特征被引入,位置预测会更加准确,同时大部分无关的 patch 被丢弃以节省大量计算。

此外,每个尺度内部的 patch 具有双向注意力,同时会关注前序尺度所有的 patch 和文本特征。这种尺度间的因果注意力可以进一步降低计算需求。

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

二、动态 patch 选择

每个 patch 的选择情况由前一尺度生成的选择因子决定,对于应用的位置有两种方案,其一是用于 Encoder 每层 MHSA 的所有 head 中,然而,对于 N 层 H 头的 Encoder,很难获得有效的的梯度信息来更新,因此学到的选择因子不太理想;其二是直接用于 Encoder 的输入,即 patch embedding 上,由于只用在这一个位置,因此更容易学习,本文最终也采用了此方案。

另外,需要注意的是,即使输入 patch embedding 被置 0,由于 MHSA 和 FFN 的存在,该 patch 在后续层的特征仍然会变为非 0 并影响其余 patch 的特征。幸运的是,当 token 序列中存在许多相同 token 时,可以简化 MHSA 的计算,实现实际的推理加速。此外,为了增强模型的灵活性,本文并没有直接将 patch embedding 置 0,而是将其替换为一个可学习的常量 token。

因此,patch 的选择问题被转换成 patch 的替换问题。patch 选择的过程可以分解为常量 token 替换和 token 合并两步。未被选择的 patch 会被替换为同一个常量 token。由于这些未被选择的 token 是相同的,根据 scaled dot product attention 的计算方式,这些 token 可以被合并为一个 token 并乘上总数,等价于将加到维度上,因此点积注意力的计算方式不变,常见的加速方法依旧可用。

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

实验结果

本文方法在 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 四个数据集上取得了和 state-of-the-art 相近的性能。通过在大规模数据集上预训练并在具体数据集上微调,模型的性能可以进一步大幅提升,并达到和预训练模型如 MDETR [2] 和 OFA [3] 等相近的结果。

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

在推理速度上,提出的方法达到了实时的推理速度,同时能保证较高的任务精度。

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

此外,实验部分也对模型的 patch 选择情况以及每个尺度(scale1 和 scale2)定位精度的分布做了统计。

如左图所示,随着尺度的增加,细粒度的图像特征被加入,模型精度逐步提升。因此可以尝试加入早退机制,在定位精度满足要求时及时退出,避免进一步在高分辨率图像上计算,实现根据样本自适应选择合适的分辨率的效果。本文也进行了一些初步的尝试,包括加入 IoU、GIoU 和不确定性等预测分支,回归 early exit 的指标,但发现效果不太理想,如何设计合适且准确的 early exit 指标有待继续探索。

右图展示了不同尺度的 patch 选择情况,在所有的尺度上,被选择的 patch 占均比较小,大部分的 patch 都可以被剔除,因此可以有效地节省计算资源。对于每个样本(图像 + 指代表达),实际选择的 patch 数量相对较少,大概占总数的 65%。

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

最后,实验部分展示了一些可视化结果,随着尺度的增加(红→绿→蓝),模型的定位精度逐步提高。另外,根据由被选择的 patch 重建的图像,可以看出模型对于背景区域只关注了粗尺度的信息,对于相关的前景区域,模型能够关注细粒度的细节信息。

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

相关文献:
[1].Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision [C]//International conference on machine learning. PMLR, 2021: 5583-5594.
[2].Kamath A, Singh M, LeCun Y, et al. Mdetr-modulated detection for end-to-end multi-modal understanding [C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1780-1790.
[3].Wang P, Yang A, Men R, et al. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework [C]//International conference on machine learning. PMLR, 2022: 23318-23340.

终于介绍完啦!小伙伴们,这篇关于《浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
可变和不可变 Java DateTime API可变和不可变 Java DateTime API
上一篇
可变和不可变 Java DateTime API
世界最大,“轧机之王”5600mm 宽厚板粗轧机在河南洛阳成功装配
下一篇
世界最大,“轧机之王”5600mm 宽厚板粗轧机在河南洛阳成功装配
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    23次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    23次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    25次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码