当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 被AAAI 2024选中的首个通用双向Adapter多模态目标追踪方法——BAT

被AAAI 2024选中的首个通用双向Adapter多模态目标追踪方法——BAT

来源：51CTO.COM 2024-01-25 13:34:44 0浏览收藏

科技周边小白一枚，正在不断学习积累知识，现将学习到的知识记录一下，也是将我的所得分享给大家！而今天这篇文章《被AAAI 2024选中的首个通用双向Adapter多模态目标追踪方法——BAT》带大家来了解一下##content_title##，希望对大家的知识积累有所帮助，从而弥补自己的不足，助力实战开发！

目标跟踪是计算机视觉的基础任务之一，近年来，单模态（RGB）目标跟踪取得了重大进展。然而，由于单一成像传感器的限制，我们需要引入多模态图像（如RGB、红外等）来弥补这一缺陷，以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息，增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟踪的发展对于实现更高水平的计算机视觉应用具有重要意义。

然而，现有的多模态跟踪任务也面临两个主要问题：

由于多模态目标跟踪的数据标注成本高，大多数现有数据集规模有限，不足以支持构建有效的多模态跟踪器；
因为不同的成像方式在变化的环境中对物体的敏感度不同，开放世界中主导模态是动态变化的，多模态数据之间的主导相关性并不固定。

在RGB序列上进行预训练，然后完全微调到多模态场景的许多多模态跟踪工作存在时间和效率问题，同时性能有限。

除了完全微调方法之外，还受到自然语言处理(NLP)领域参数高效微调方法的启发。最近的一些方法在多模态跟踪中引入了参数高效prompt微调。这些方法通过冻结骨干网络参数，并添加一组额外可学习的参数来实现。

通常，这些方法主要以一种模态（通常是RGB）作为主要模态，而另一种模态则作为辅助模态。然而，这种方法忽视了多模态数据之间的动态关联性，因此在复杂场景中无法充分利用多模态信息的互补效果，从而限制了跟踪性能。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

图 1：复杂场景下不同的主导模态。

为了解决上述问题，天津大学的研究人员提出了一种名为双向适配器用于多模态跟踪（BAT）的解决方案。与传统方法不同的是，BAT方法不依赖于固定的主导模态和辅助模态，而是通过动态提取有效信息的过程中，在辅助模态向主导模态的变化中获得更好的性能。这种方法的创新之处在于它能够适应不同的数据特征和任务需求，从而提高基础模型在下游任务中的表示能力。通过使用BAT方法，研究人员希望能够提供一种更加灵活和高效的多模态跟踪解决方案，为相关领域的研究和应用带来更好的效果。

BAT 由两个特定于模态分支的共享参数的基础模型编码器和一个通用的双向适配器组成。在训练过程中，BAT 并没有对基础模型进行全面微调，而是采用了逐步训练的方法。每个特定的模态分支都是通过使用固定参数的基础模型进行初始化的，只训练新增的双向适配器。每个模态分支从其他模态中学习提示信息，并与当前模态的特征信息相结合，以增强表征能力。两个特定模态的分支通过通用双向适配器进行交互，动态地相互融合主导和辅助信息，以适应多模态非固定关联的范式。这种设计使得BAT能够在不改变原内容意思的情况下微调内容，提高模型的表征能力和适应性。

通用双向适配器采用轻量级沙漏结构，可以嵌入到基础模型的每一层transformer编码器中，避免引入大量可学习参数。通过仅增加少量的训练参数(0.32M)，与全微调方法和基于提示学习的方法相比，通用双向适配器具有更低的训练成本，并获得更好的跟踪性能。

论文《Bi-directional Adapter for Multi-modal Tracking》：

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

论文链接：https://arxiv.org/abs/2312.10611

代码链接：https://github.com/SparkTempest/BAT

主要贡献

我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化，以自适应的方式有效融合多模态信息。
据我们所知，我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效，能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数，我们的模型可以鲁棒应对开放场景下的多模态跟踪。
我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构，并验证了我们在多个 RGBT 跟踪相关数据集上的优势。

核心方法

如图 2 所示，我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT)，框架具有 RGB 模态和热红外模态的双流编码器结构，每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置，从两个模态相互交叉提示多模态数据。

方法没有对基础模型进行完全的微调，仅通过学习轻量级双向 Adapter，将预先训练好的 RGB 追踪器高效地转移到多模态场景中，实现了出色的多模态互补性和卓越的追踪精度。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

图 2：BAT 的总体架构。

首先将每种模态的首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024 模板帧（第一帧中目标物体的初始框）和搜索帧（后续追踪图像）转换为，将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

双向 adapter 与双流编码器层并行设置，可以学习从一种模态到另一种模态的特征提示。为此，将两个分支的输出特征相加并输入到预测头 H 中，得到最终的跟踪结果框 B。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

双向 adapter 采用模块化设计，分别嵌入到多头自注意力阶段和 MLP 阶段，如图 1 右侧所示双向 adapter 的详细结构，其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成，tn 表示每个模态的 token 个数，输入 token 首先通过下投影被降维为 de 并通过一个线性投影层，然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。

通过这种简单的结构，双向 adapter 可以有效地在首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024 模态之间进行特征提示，实现多模态跟踪。

由于冻结了 transformer 编码器和预测头，因此只需要优化新增 adapter 的参数。值得注意的是，与大多数传统 adapter 不同，我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的，确保了开放世界中良好的跟踪性能。

实验效果

如表 1 所示，在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示，在 LasHeR 数据集的不同场景属性下，与最先进方法的性能比较也证明了所提出方法的优越性。

这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标，并自适应地从动态变化的主导 - 辅助模态中提取有效信息，达到了最先进的性能。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

表 1 RGBT234 和 LasHeR 数据集上的整体性能。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。

实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示，与固定主导模态的相关方法相比，我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标，当 RGB 和 TIR 在后续场景中都能提供有效的信息时，追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征，捕获更准确的目标响应位置，并消除 RGB 模态的干扰。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024