当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

来源:51CTO.COM 2024-04-24 14:30:11 0浏览 收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~

写在前面&笔者的个人理解

本文介绍了一种用于3D目标检测和多目标跟踪的相机-毫米波雷达融合方法(CR3DT)。基于激光雷达的方法已经为这一领域奠定了一个高标准,但是它的高算力、高成本的缺陷制约了该方案在自动驾驶领域的发展;基于相机的3D目标检测和跟踪方案由于其成本较低,也吸引了许多学者的关注,但是由于其成果效果差。因此,将相机与毫米波雷达的融合正在成为一个很有前景的方案。作者在现有的相机框架BEVDet下,融合毫米波雷达的空间和速度信息,结合CC-3DT++跟踪头,显著提高了3D目标检测和跟踪的精度,中和了性能和成本之间的矛盾。

主要贡献

传感器融合架构 提出的CR3DT在BEV编码器的前后均使用中间融合技术来集成毫米波雷达数据;而在跟踪上,采用一种准密集外观嵌入头,使用毫米波雷达的速度估计来进行目标关联。

检测性能评估 CR3DT在nuScenes 3D检测验证集上实现了35.1%的mAP和45.6%的nuScenes检测分数(NDS)。利用雷达数据中包含的丰富的速度信息,与SOTA相机检测器相比,检测器的平均速度误差(mAVE)降低了45.3%。

跟踪性能评估 CR3DT在nuScenes跟踪验证集上的跟踪性能为38.1% AMOTA,与仅使用相机的SOTA跟踪模型相比,AMOTA提高了14.9%,跟踪器中速度信息的明确使用和进一步改进显著减少了约43%IDS的数量。

模型架构

该方法基于EV-Det框架,融合RADAR的空间与速度信息,结合CC-3DT++跟踪头,该头在其数据关联中明确使用了改进的毫米波雷达增强检测器的速度估计,最终实现了3D目标检测和跟踪。

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)图1 整体架构。检测和跟踪分别以浅蓝色和绿色突出显示。

BEV 空间中的传感器融合

该模块采用类似 PointPillars 的融合方法,包括其中的聚合和连接。BEV 网格设置为 [-51.2, 51.2],分辨率为 0.8,从而得到一个(128×128)的特征网格。将图像特征直接投射到 BEV 空间中,每个网格单元的通道数是 64,继而得到图像 BEV 特征是(64×128×128);同样地,将 Radar 的 18 个维度信息都聚合到每个网格单元中,这其中包括了点的 x、y、z 坐标,并且不对 Radar 数据做任何增强。作者确认 Radar 点云已经包含比 LiDAR 点云更多的信息,因此得到了 Radar BEV 特征是(18×128×128)。最后将图像 BEV 特征(64×128×128)和 Radar BEV 特征(18×128×128)直接连接起来((64+18)×128×128),作为 BEV 特征编码层的输入。在后续的消融实验中发现,在维度为(256×128×128)的 BEV 特征编码层的输出中添加残差连接是有益的,从而得到了 CenterPoint 检测头的最终输入大小为((256+18)×128×128)。

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

图2 聚合到BEV空间进行融合操作的Radar点云可视化

跟踪模块架构

跟踪就是基于运动相关性和视觉特征相似性将两个不同帧的目标关联起来。在训练过程中,通过准密集多元正对比学习获得一维视觉特征嵌入向量,然后在CC-3DT的跟踪阶段同时使用检测和特征嵌入。对数据关联步骤(图1中DA模块)进行了修改,以利用改进的CR3DT位置检测和速度估计。具体如下:

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

实验及结果

基于nuScenes数据集完成,且所有训练均没有使用CBGS。

受限制模型

因为作者整个模型是在一台3090显卡的电脑上进行的,所以称之为受限制模型。该模型的目标检测部分以BEVDet为检测基线,图像编码的backbone是ResNet50,并且将图像的输入设置为(3×256×704),在模型中不使用过去或者未来的时间图像信息,batchsize设置为8。为了缓解Radar数据的稀疏性,使用了五次扫描以增强数据。在融合模型中也没有使用额外的时间信息。

对于目标检测,采用mAP、NDS、mAVE的分数来评估;对于跟踪,使用AMOTA、AMOTP、IDS来评估。

目标检测结果

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

表1 在nuScenes验证集上的检测结果

表1显示了CR3DT与仅使用相机的基线BEVDet (R50)架构相比的检测性能。很明显,Radar的加入显著提高了检测性能。在小分辨率和时间帧的限制下,与仅使用相机的BEVDet相比,CR3DT成功地实现了5.3%的mAP和7.7%的NDS的改进。但是由于算力的限制,论文中并没有实现高分辨率、合并时间信息等的实验结果。此外在表1中最后一列还给出了推理时间。

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

表2 检测框架的消融实验

在表2中比较了不同的融合架构对于检测指标的影响。这里的融合方法分为两种:第一种是论文中提到的,放弃了z维的体素化和随后的3D卷积,直接将提升的图像特征和纯RADAR数据聚合成柱,从而得到已知的特征尺寸为((64+18)×128×128);另一种是将提升的图像特征和纯RADAR数据体素化为尺寸为0.8×0.8×0.8 m的立方体,从而得到替代特征尺寸为((64+18)×10×128×128),因此需要以3D卷积的形式使用BEV压缩器模块。由表2(a)中可以看到,BEV压缩器数量的增加会导致性能下降,由此可以看到第一种方案表现得更为优越。而从表2(b)中也可以看到,加入了Radar数据的残差块同样能够提升性能,也印证了前面模型架构中提到的,在BEV特征编码层的输出中添加残量连接是有益的。

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)表3 基于基线BEVDet和CR3DT的不同配置在nuScenes验证集上的跟踪结果

表3给出了改进的CC3DT++跟踪模型在nuScenes验证集上的跟踪结果,给出了跟踪器在基线和在CR3DT检测模型上的性能。CR3DT模型使AMOTA的性能在基线上提高了14.9%,而在AMOTP中降低了0.11 m。此外,与基线相比,可以看到IDS降低了约43%。

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

表4 在CR3DT检测骨干上进行了跟踪架构消融实验

超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

结论

这项工作提出了一种高效的相机-雷达融合模型——CR3DT,专门用于3D目标检测和多目标跟踪。通过将Radar数据融合到只有相机的BEVDet架构中,并引入CC-3DT++跟踪架构,CR3DT在3D目标检测和跟踪精度方面都有了大幅提高,mAP和AMOTA分别提高了5.35%和14.9%。

相机和毫米波雷达融合的方案,相较于纯LiDAR或者是LiDAR和相机融合的方案,具有低成本的优势,贴近当前自动驾驶汽车的发展。另外毫米波雷达还有在恶劣天气下鲁棒的优势,能够面对多种多样的应用场景,当前比较大的问题就是毫米波雷达点云的稀疏性以及无法检测高度信息。但是随着4D毫米波雷达的不断发展,相信未来相机和毫米波雷达融合的方案会更上一层楼,取得更为优异的成果!

今天关于《超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于雷达,3D检测的内容请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
mac虚拟机256够用吗(mac虚拟机占用内存吗)mac虚拟机256够用吗(mac虚拟机占用内存吗)
上一篇
mac虚拟机256够用吗(mac虚拟机占用内存吗)
golang函数并发控制与分布式系统之间的关联
下一篇
golang函数并发控制与分布式系统之间的关联
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    39次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码