基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
从现在开始,我们要努力学习啦!今天我给大家带来《基于Transformer的高效单阶段短时RGB-T单目标跟踪方法》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!
引言
如图1所示,现有的三阶段RGB-T单目标跟踪网络通常采用两个独立的特征提取分支,分别负责提取两个模态的特征。然而,相互独立的特征提取分支会导致两个模态在特征提取阶段存在缺乏有效的信息交互。因此,一旦网络完成离线训练,其只能从每个模态图像中提取固定的特征,无法根据实际的模态状态动态调整,以提取更具针对性的动态特征。这一局限性约束了网络对多样的目标双模态外观,以及模态外观之间动态对应关系的适应能力。如图2所示,这种特征提取方式并不适合RGB-T单目标跟踪的实际应用场景,特别是在复杂环境下,因为被跟踪目标的任意性会导致的目标双模态外观多样,并且两个模态之间的动态关系也会随着跟踪环境的变化而变化。三阶段融合跟踪无法很好地适应这种情况,从而导致其有明显的速度瓶颈。
除了基于Transformer的RGB-T单目标跟踪网络都是采用直接相加或级联的方式,将两个模态搜索区域的特征组合在一起,输入预测头,用于输出最终的预测结果。然而,当前RGB-T单目标跟踪数据集提供的视频图像并不是完全对齐的,而且也不是每个模态搜索区域都可以提供有效信息,例如黑夜和热交叉跟踪场景下,RGB模态搜索区域和红外外搜索区域将无法提供有效的目标外观信息,存在大量的背景噪音。因此,直接通过按元素相加或级联的方式融合特征,没有考虑到不同搜索区域融合特征的问题。 为了解决这个问题,本文提出了一种新的方法,称为融合特征选择模块(FFSM)。FFSM模块主要用于选择具有有效信息的目标外观的搜索区域特征。具体来说,FFSM模块首先通过注意力机制学习每个搜索区域特征的权重。然后,根据这些权重对搜索区域特征进行加权求和,得到最终的融合特征。这种机制可以有效地过滤掉无效的背景噪音,并提取出具有较高重要性的目标外观信息,从而改善了RGB-T单目标跟踪性能。 为了验证FFSM模块的有效性,我们在大量的背景噪音存在的情况下进行了实验。实验结果表明,与直接按元素相加或级联的方式相比,使用FFSM模块的RGB-T单目标跟踪网络在目标跟踪中取得了更好的性能。在黑夜和热交叉跟踪场景下,FFSM模块能够准确地选择有效的目标外观信息,提高了目标跟踪的准确性和鲁棒性。 总之,FFSM模块的引入有效地解决了直接融合特征的问题,提高了RGB-T单目标跟踪网络的性能。该方法可以广泛应用于大量背景噪音存在


本文介绍了一种基于Transformer的高效单阶段RGB-T单目标跟踪网络USTrack。其核心是通过联合特征提取、融合和关联建模方法,将三阶段融合跟踪方法的三个功能部分直接统一到一个ViT主干网络中同时执行,从而实现在模态交互下直接提取目标模板和搜索区域的融合特征,并构建两个融合特征之间的关联建模,从而大大提升了跟踪速度和精度。此外,USTrack还设计了一个基于模态可靠性的特征选择机制,该机制通过直接抑制无效模态的产生,可以减少无效模态的干扰,从而减少噪声信息对最终跟踪结果的影响。最终,USTrack创造了当前RGB-T单目标跟踪中最快的速度84.2FPS,并通过两个模态图像中目标的微小位置偏差以及减轻无效模态信息对跟踪结果的影响,大大减少了噪声信息对最终预测结果的影响。
本文的贡献如下:
当前三阶段融合跟踪网络在模态特征提取阶段存在缺乏模态交互的问题。本章提出联合特征提取 & 融合 & 关联建模方法。该方法可以在模态的交互下直接提取目标模板和搜索区域的融合特征,并同时执行两个融合特征之间的关联建模操作。首次为短时RGB-T单目标跟踪网络的设计提供了一种高效且简洁的单阶段融合跟踪范式。
不改变原文意思,调整句子结构,“%EF%BC%882%EF%BC%89首次提出基于模态可靠性的特征选择机制,该机制可以根据实际跟踪环境来评估不同模态图像的可靠性,并根据可靠性来丢弃无效模态生成的融合特征,减少噪音信息对最终预测结果的影响,从而进一步提高跟踪性能。”
本文介绍了在三个主流 RGB-T 单目标跟踪基准数据集上的大量实验,表明本文的方法在实现了新的 SoTA 性能的同时,也创造了高达 84.2FPS 的最快跟踪速度。特别是在 VTUAV 短时跟踪器数据集和长时跟踪数据集上,USTrack 在 MPR/MSR 指标上比现有性能最好的方法提高了 11.1%/11.7% 和 11.3%/9.7%。
方法
正如图 3 所示,USTrack 的总体架构由三部分组成:双嵌入层、ViT 主干网和基于模态可靠性的特征选择机制。双嵌入层由两个独立的嵌入层组成。这是考虑到注意力机制是基于相似度去获取全局信息的,并不同模态数据的内在性能,可能会导致两个模态对同一模式有不同的特征表示形式,如果直接通过注意力对模态信息进行融合,这种异质性可能会限制网络对模态状态共享信息的建模能力,从而影响后续的特征融合过程。因此,USTrack 使用两个可学习的嵌入层将不同模态对应的输入映射到一个有利于融合的空间,在一定程度上对两个模态进行模式对齐,降低模态内在性对特征融合的影响。然后,将双嵌入层的所有输出联合作为 ViT 主干网的输入,通过注意力层直接通 过注意力对模态信息进行融合,特征融合以及目标模板融合,统一 RGB-T 跟踪的三个功能阶段,为 RGB-T 跟踪提供一个高效的单阶段跟踪范式。
基于模式可靠性的特征选择机制是一个预测头和两个可靠性评估模块。它允许两个预测头输出不同的结果,并根据模式可靠性的得分,帮助网络选择更适合当前跟踪场景的模式所对应的搜索区域。特征选择机制可用于最终的预测,从而减少无效模式产生的噪声信息对最终预测结果的影响。

实验结果
USTrack选择GTOT、RGB234以及VTUAV数据集作为测试基准,测试结果如图4所示。我们还以VTUAV为基准,对USTrack在不同挑战场景下的性能进行分析。如图5所示,本文筛选了性能提升最为明显的6个挑战属性。分别为:形变(DEF)、尺度变化(SV)、完全遮挡(FO)、部分遮挡(PO)、热交叉(TC)以及极端光照(EI)。具体来说,形变(DEF)和尺度变化(SV)挑战属性可以有效地展示了目标在跟踪过程中不同外观的差异。完全遮挡(FO)、部分遮挡(PO)、热交叉(TC)和极端光照(EI)挑战属性可以导致相应模态状态的外观发生变化或消失,有效地展示了目标在不同挑战场景中的动态关系。USTrack 在具有这些挑战属性的跟踪场景下取得了最显著的性能提升,可以评估联合特征提取 & 融合 & 关联建模方法可有效缓解三阶段融合跟踪范式中模态特征在提取阶段交互不足的问题,能够更好地适应目标在跟踪过程中不同外观和模态之间的动态关系。


如图 6和所示,为了验证基于模态可靠性的特征选择机制的有效性,我们在 RGBT234 基准数据集上,展开了带有特征选择机制的双预测头结构与几种常见预测头结构的对比实验,并给出了模态可靠性与实际跟踪场景良好对应关系的可视化的结果。


总结
本章提出了一个基于 Transformer 的高效单阶段短时 RGB-T 单目标跟踪网USTrack。USTrack 的核心是提出联合特征提取 & 融合 & 关联建模方法,以解决传统三阶段融合跟踪网络在特征提取阶段缺乏模态交互的问题。从而增强跟踪网络了对多样的目标双模态外观和模态外观之间动态对应关系的适应能力。在此基础上,进一步提出了基于模态可靠性的特征选择机制。该机制通过直接摒弃无效模态产生的融合特征,来减少了噪声信息对最终预测结果的影响,从而获得更好的跟踪性能。USTrack 在三个主流数据集上实现了 SoTA 性能,并以 84.2 FPS 的速度创造了最快 RGB-T 跟踪推理速度的新记录。值得注意的是,在目前规模最大的 RGB-T 单目标跟踪基准数据集 VTUAV 上,该方法比现有 SoTA 方法在评估指标 MPR/MSR 上分别增加了 11.1%/11.7% 和 11.3%/9.7%,取得了较大的性能突破,为该基准数据集增添了一个新的功能强大的基线方法。
作者信息
1. 夏坚强
军事科学院国防科技创新研究院硕士研究生。研究兴趣包括视觉图像处理、目标检测、单目标跟踪等。第一作者发表CCF A类会议一篇,获2022年“华为杯”第四届中国研究生人工智能创新大赛华为专项一等奖。
2. 赵健
赵健,中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人、青年科学家,西北工业大学光电与智能研究院研究员,博士毕业于新加坡国立大学,研究兴趣包括多媒体分析、临地安防、具身智能。
围绕无约束视觉感知理解共发表CCF-A类论文32篇,以第一/通讯作者在T-PAMI、CVPR等国际权威期刊和会议上发表论文31篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一发明人授权国家发明专利5项。相关技术成果在百度、蚂蚁金服、奇虎360等6个科技行业领军企业得到应用,产生了显著效益。曾入选中国科协及北京市科协“青年人才托举工程”,主持国自然青年科学基金等项目6项。曾获吴文俊人工智能优秀青年奖(2023)、吴文俊人工智能自然科学奖一等奖(2/5,2022)、新加坡模式识别与机器智能协会(PREMIA)Lee Hwee Kuan奖、ACM Multimedia唯一最佳学生论文奖(一作,1/208,CCF-A类会议,2018),7次在国际重要科技赛事中夺冠。
担任北京图象图形学学会理事,国际知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》编委,《Pattern Recognition Letters》、《Electronics》特刊客座编辑,VALSE资深领域主席,ACM Multimedia 2021分论坛主席,CICAI 2022/2023领域主席,CCBR 2024论坛主席,中国人工智能学会/中国图象图形学学会高级会员,“挑战杯”大学生科技作品竞赛评委,中国人工智能大赛专家委委员等。
主页:https://zhaoj9014.github.io
论文截图

论文链接
https://arxiv.org/abs/2308.13764
代码链接
https://github.com/xiajianqiang
本篇关于《基于Transformer的高效单阶段短时RGB-T单目标跟踪方法》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- 如何设计一个链代码来调用另一个对等点上的相同链代码?

- 下一篇
- 水月雨将推出首款手机,五一前有望面世
-
- 科技周边 · 人工智能 | 7小时前 |
- 小米SU7订单18万未交付,月产能暴增6倍
- 361浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 | iPhone17Pro 天蓝色 M4MacBookAir
- iPhone17Pro/ProMax弃钛金属,拥抱天蓝色
- 272浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 问界M8快报:MAX+版最火,BAL车主热捧
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 港大与Adobe联手推出PixelFlow图像生成模型
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 | 摩尔线程 招聘诈骗 @mthreads.com 官方客服 法律责任
- 摩尔线程重磅声明发布
- 406浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 |
- 玛莎拉蒂GT2Stradale国内首秀售414.5万
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 19小时前 |
- 美股反弹艰难,三大指数涨跌不一,英伟达跌3%
- 301浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 30次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 45次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 40次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 53次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 43次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览