当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 被AAAI 2024选中的首个通用双向Adapter多模态目标追踪方法——BAT

被AAAI 2024选中的首个通用双向Adapter多模态目标追踪方法——BAT

来源:51CTO.COM 2024-01-25 13:34:44 0浏览 收藏

科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《被AAAI 2024选中的首个通用双向Adapter多模态目标追踪方法——BAT》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!

目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来弥补这一缺陷,以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息,增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟踪的发展对于实现更高水平的计算机视觉应用具有重要意义。

然而,现有的多模态跟踪任务也面临两个主要问题:

  1. 由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;
  2. 因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关性并不固定。

在RGB序列上进行预训练,然后完全微调到多模态场景的许多多模态跟踪工作存在时间和效率问题,同时性能有限。

除了完全微调方法之外,还受到自然语言处理(NLP)领域参数高效微调方法的启发。最近的一些方法在多模态跟踪中引入了参数高效prompt微调。这些方法通过冻结骨干网络参数,并添加一组额外可学习的参数来实现。

通常,这些方法主要以一种模态(通常是RGB)作为主要模态,而另一种模态则作为辅助模态。然而,这种方法忽视了多模态数据之间的动态关联性,因此在复杂场景中无法充分利用多模态信息的互补效果,从而限制了跟踪性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 1:复杂场景下不同的主导模态。

为了解决上述问题,天津大学的研究人员提出了一种名为双向适配器用于多模态跟踪(BAT)的解决方案。与传统方法不同的是,BAT方法不依赖于固定的主导模态和辅助模态,而是通过动态提取有效信息的过程中,在辅助模态向主导模态的变化中获得更好的性能。这种方法的创新之处在于它能够适应不同的数据特征和任务需求,从而提高基础模型在下游任务中的表示能力。通过使用BAT方法,研究人员希望能够提供一种更加灵活和高效的多模态跟踪解决方案,为相关领域的研究和应用带来更好的效果。

BAT 由两个特定于模态分支的共享参数的基础模型编码器和一个通用的双向适配器组成。在训练过程中,BAT 并没有对基础模型进行全面微调,而是采用了逐步训练的方法。每个特定的模态分支都是通过使用固定参数的基础模型进行初始化的,只训练新增的双向适配器。每个模态分支从其他模态中学习提示信息,并与当前模态的特征信息相结合,以增强表征能力。两个特定模态的分支通过通用双向适配器进行交互,动态地相互融合主导和辅助信息,以适应多模态非固定关联的范式。这种设计使得BAT能够在不改变原内容意思的情况下微调内容,提高模型的表征能力和适应性。

通用双向适配器采用轻量级沙漏结构,可以嵌入到基础模型的每一层transformer编码器中,避免引入大量可学习参数。通过仅增加少量的训练参数(0.32M),与全微调方法和基于提示学习的方法相比,通用双向适配器具有更低的训练成本,并获得更好的跟踪性能。

论文《Bi-directional Adapter for Multi-modal Tracking》:

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

论文链接:https://arxiv.org/abs/2312.10611

代码链接:https://github.com/SparkTempest/BAT

主要贡献

  • 我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化,以自适应的方式有效融合多模态信息。
  • 据我们所知,我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效,能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数,我们的模型可以鲁棒应对开放场景下的多模态跟踪。
  • 我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 跟踪相关数据集上的优势。

核心方法

如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提示多模态数据。

方法没有对基础模型进行完全的微调,仅通过学习轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 2:BAT 的总体架构。

首先将每种模态的首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024模板帧(第一帧中目标物体的初始框首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024)和首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024搜索帧(后续追踪图像)转换为 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

双向 adapter 与双流编码器层并行设置,可以学习从一种模态到另一种模态的特征提示。为此,将两个分支的输出特征相加并输入到预测头 H 中,得到最终的跟踪结果框 B。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。

通过这种简单的结构,双向 adapter 可以有效地在 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024 模态之间进行特征提示,实现多模态跟踪。

由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 不同,我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的,确保了开放世界中良好的跟踪性能。

实验效果

如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示,在 LasHeR 数据集的不同场景属性下,与最先进方法的性能比较也证明了所提出方法的优越性。

这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标,并自适应地从动态变化的主导 - 辅助模态中提取有效信息,达到了最先进的性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

表 1 RGBT234 和 LasHeR 数据集上的整体性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。

实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示,与固定主导模态的相关方法相比,我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标,当 RGB 和 TIR 在后续场景中都能提供有效的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征,捕获更准确的目标响应位置,并消除 RGB 模态的干扰。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 4 跟踪结果的可视化。

我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示,在 VisEvent 测试集上与其他方法相比,我们的方法在不同复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的有效性和泛化性。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 5 VisEvent 数据集下追踪结果。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

图 6 attention 权重可视化。

我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比,我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息,同时随着网络深度的增加保持主导模态的有效性,从而提高了整体跟踪性能。

实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动态跟踪。

好了,本文到此结束,带大家了解了《被AAAI 2024选中的首个通用双向Adapter多模态目标追踪方法——BAT》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Meta和纽约大学合作开发OK-Robot,带来了理想中的自动倒茶机器人Meta和纽约大学合作开发OK-Robot,带来了理想中的自动倒茶机器人
上一篇
Meta和纽约大学合作开发OK-Robot,带来了理想中的自动倒茶机器人
正常版切换回win10s模式
下一篇
正常版切换回win10s模式
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    201次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    204次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    201次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    208次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    224次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码