当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

来源:51CTO.COM 2023-10-04 14:56:58 0浏览 收藏

大家好,我们又见面了啊~本文《SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~

基于激光雷达相机融合的3D检测是自动驾驶的一项关键任务。近年来,出现了许多激光雷达相机融合方法,并取得了良好的性能,但是这些方法始终缺乏精心设计和有效监督的融合过程

本文介绍了一种名为SupFusion的新训练策略,它为激光雷达相机融合提供了辅助特征级监督,并显著提高了检测性能。该方法包括Polar Sampling数据增强方法,用于加密稀疏目标并训练辅助模型生成高质量特征进行监督。这些特征用于训练激光雷达相机融合模型,优化融合特征以模拟生成高质量特征。此外,还提出了一种简单而有效的深度融合模块,与之前使用SupFusion策略的融合方法相比,该模块连续获得了优越的性能。本文的方法具有以下优点:首先,SupFusion引入了辅助特征级监督,可以在不增加额外推理成本的情况下提高激光雷达相机的检测性能。其次,所提出的深度融合可以不断提高检测器的能力。提出的SupFusion和深度融合模块是即插即用的,本文通过大量实验证明了它们的有效性。在基于多个激光雷达相机的3D检测KITTI基准测试中,取得了约2%的3D mAP改进!

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

图1:顶部,以前的激光雷达相机3D检测模型,融合模块是通过检测loss进行优化的。底部:本文提出的SupFusion,通过辅助模型提供的高质量特征引入辅助监督。

基于激光雷达相机融合的3D检测是自动驾驶和机器人技术的一项关键且具有挑战性的任务,先前的方法总是通过内参和外参将相机输入投影到激光雷达BEV或体素空间,以对齐激光雷达和相机特征。然后,采用简单的级联或求和来获得用于最终检测的融合特征。此外,一些基于深度学习的融合方法获得了有希望的性能。然而,以往的融合方法总是通过检测损失直接优化3D/2D特征提取和融合模块,这在特征层面缺乏精心设计和有效的监督,限制了其性能。

近年来,蒸馏方式在用于3D检测的特征级监督方面显示出很大的改进。一些方法提供了激光雷达特征,以指导2D主干根据相机输入估计深度信息。此外,一些方法提供了激光雷达相机融合功能,以监督激光雷达主干从激光雷达输入中学习全局和上下文表示。通过模拟更稳健和高质量的特征引入特征级辅助监督,检测器可以促进边际改进。受此启发,处理激光雷达相机特征融合的自然解决方案是提供更强、高质量的特征,并为激光雷达相机3D检测引入辅助监督!

为了提高基于激光雷达相机的融合3D检测性能,本文提出了一种名为SupFusion的监督式激光雷达相机融合方法。该方法通过生成高质量的特征,并为融合和特征提取过程提供有效的监督来实现。首先,我们训练一个辅助模型,以提供高质量的功能。与以往利用较大模型或额外数据的方法不同,我们提出了一种新的数据增强方法,称为Polar Sampling。Polar Sampling可以从稀疏的激光雷达数据中动态增强目标的密度,从而更容易检测并提高特征质量,例如准确的检测结果。然后,我们简单地训练基于激光雷达相机融合的检测器,并引入辅助特征级监督。在这一步中,我们将原始激光雷达和相机输入输入到3D/2D主干和融合模块中,以获得融合特征。融合特征被馈送到检测头中用于最终预测,同时辅助监督将融合特征模拟为高质量特征。这些特征是通过预训练的辅助模型和增强的激光雷达数据获得的。通过这种方式,所提出的特征级监督可以使融合模块生成更稳健的特征,并进一步提高检测性能。为了更好地融合激光雷达和相机的特征,我们提出了一种简单而有效的深度融合模块,该模块由堆叠的MLP块和动态融合块组成。SupFusion可以充分挖掘深度融合模块的能力,并不断提高探测精度!

本文的主要贡献:

  1. 提出了一种新的监督融合训练策略SupFusion,该策略主要由高质量的特征生成过程组成,并首次提出了用于鲁棒融合特征提取和精确3D检测的辅助特征级监督损失。
  2. 为了在SupFusion中获得高质量的特征,提出了一种名为“Polar Sampling”的数据增强方法来加密稀疏目标。此外,还提出了一种有效的深度融合模块,以连续提高检测精度。
  3. 基于具有不同融合策略的多个检测器进行了广泛的实验,并在KITTI基准上获得了约2%的mAP改进。

提出的方法

高质量的特征生成过程如下图所示,对于任何给定的LiDAR样本,通过polar  pasting粘贴来加密稀疏目标,极轴polar  pasting计算方向和旋转以从数据库中查询密集目标,并通过pasting为稀疏目标添加额外的点。本文首先通过增强的数据训练辅助模型,并将增强的激光雷达数据馈送到辅助模型中,以在其收敛后生成高质量特征f*。

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

高质量的特征生成

为了在SupFusion中提供特征级监督,采用了一个辅助模型来从增强的数据中捕获高质量的特征,如图3所示。首先,训练一个辅助模型来提供高质量的特征。对于D中的任何样本,通过polar pasting来增强稀疏的激光雷达数据,以获得增强的数据,该极性粘贴通过极性分组中生成的添加点集来加密备用目标。然后,在辅助模型收敛之后,将增强的样本输入到优化的辅助模型中,以捕获高质量特征,用于训练激光雷达相机3D检测模型。为了更好地应用于给定的激光雷达相机检测器并更容易实现,这里简单地采用激光雷达分支探测器作为辅助模型!

检测器训练

对于任何给定的激光雷达相机检测器,在特征级别使用所提出的辅助监督来训练模型。给定样本的情况下,首先将激光雷达和相机输入到3D和2D编码器和中,以捕获相应的特征和,这些特征被输入到融合模型中以生成融合特征,并流到检测头中进行最终预测。此外,采用所提出的辅助监督来模拟具有高质量特征的融合特征,该特征是由预先训练的辅助模型和增强的激光雷达数据生成的。上述过程可以公式化为:

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

Polar Sampling

为了提供高质量的特征,本文在提出的SupFusion中引入了一种名为Polar Sampling的新的数据增强方法,以解决稀疏问题,该问题经常导致检测失败。为此,我们对激光雷达数据中的稀疏目标进行了密集处理,类似于密集目标的处理方式。极坐标采样由两个部分组成,即极坐标分组和极坐标粘贴。在极坐标分组中,我们主要建立了一个数据库来存储密集目标,该数据库用于极坐标粘贴,从而使稀疏目标变得更加密集

考虑到激光雷达传感器的特性,收集到的点云数据自然存在特定的密度分布。例如,物体在表面上有更多的点朝向激光雷达传感器,而在相对两侧的点很少。密度分布主要受方向和旋转的影响,而点的密度主要取决于距离。离激光雷达传感器更近的物体具有更密集的点。受此启发,本文的目标是根据稀疏目标的方向和旋转,将长距离的稀疏目标与短距离的密集目标进行密度化,以保持密度分布。我们基于场景中心和特定目标为整个场景以及目标建立极坐标系,并将激光雷达传感器的正方向定义为0度,以测量相应的方向和旋转。然后,我们收集具有相似密度分布(例如,具有相似方向和旋转)的目标,并为极性分组中的每组生成一个密集目标,并在极坐标粘贴中使用它来密集稀疏目标

Polar Grouping

如图4所示,这里构建了一个数据库B,根据极性分组中的方向和旋转来存储生成的密集物点集l,在图4中记为α和β!

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

首先,搜索整个数据集,通过位置计算所有目标的极角,并在基准中提供旋转。其次,根据目标的极角将它们分成几组。手动将方向和旋转划分为N组,对于任何目标点集l,都可以根据索引将其放入相应的组中:

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

Polar Pasting

如图2所示,利用Polar Pasting来增强稀疏的激光雷达数据,以训练辅助模型并生成高质量特征。给定LiDAR样本,,,,包含个目标,对于任何目标,都可以计算与分组过程相同的方向和旋转,并根据标签和索引从B查询密集目标,这可以从E.q.6中获得增强样本中的所有目标并获得增强的数据。

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

Deep Fusion

为了模拟增强型激光雷达数据生成的高质量特征,融合模型旨在从相机输入中丰富的颜色和上下文特征中提取稀疏目标的缺失信息。为此,本文提出了深度融合模块,以利用图像特征并完成激光雷达演示。所提出的深度融合主要由3D学习器和2D-3D学习器组成。3D学习器是一个简单的卷积层,用于将3D呈现转移到2D空间中。然后,连接2D特征和3D呈现(例如,在2D空间中),2D-3D学习器被用来融合LiDAR相机特征。最后,通过MLP和激活函数对融合特征进行了加权,将其添加回原始激光雷达特征作为深度融合模块的输出。2D-3D学习器由深度为K的堆叠MLP块组成,学习利用相机特征来完成稀疏目标的激光雷达表示,以模拟密集激光雷达目标的高质量特征。

实验对比分析

实验结果(mAP@R40%)。这里列出了三个类别的简单、中等(mod.)和困难情况,以及总体性能。这里L、LC、LC*表示相应的激光雷达检测器、激光雷达相机融合检测器和本文提案的结果。∆表示改进。最佳结果以粗体显示,预期L†是辅助模型,并在增强验证集上进行测试。MVXNet是基于mmdetection3d重新进行的。PV-RCNN-LC和Voxel RCNN LC是基于VFF的开源代码重新进行的。

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

重写后的内容:整体性能。根据表1中的比较结果,3DmAP@R40基于三个检测器的比较显示了各个类别和每个难度划分的总体性能。可以明显观察到,通过引入额外的相机输入,激光雷达相机方法(LC)在性能上优于基于激光雷达的检测器(L)。通过引入极性采样,辅助模型(L†)在增强的验证集上表现出令人钦佩的性能(例如超过90%的mAP)。借助具有高质量特征的辅助监督和提出的深度融合模块,我们的提案不断提高检测精度。例如,与基线(LC)模型相比,我们的提案在中度和难度目标上分别获得了+1.54%和+1.24%的3D mAP改进。此外,我们还对基于SECOND-LC的nuScenes基准进行了实验,如表2所示,NDS和mAP分别提高了+2.01%和+1.38%

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

class感知改进分析。与基线模型相比,SupFusion和深度融合不仅可以提高整体性能,还可以提高包括Pedestrian在内的每个类别的检测性能,比较三个类别的平均改善(例如中等情况),可以获得以下观察结果:骑自行车的人获得最大的改善(+2.41%),而行人和汽车分别获得+1.35%和+0.86%的改善。原因很明显:(1) 与行人和骑自行车的人相比,汽车更容易被发现,并获得最佳效果,因此更难改进。(2) 与行人相比,骑自行车的人获得了更多的改进,因为行人是非网格的,生成的密集目标与骑自行车的相比不那么好,因此获得的性能改进较低!

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?

请点击以下链接查看原文内容:https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw


以上就是《SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?》的详细内容,更多关于自动驾驶,训练的资料请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
PHP与Vue开发:如何实现会员积分的抽奖机制PHP与Vue开发:如何实现会员积分的抽奖机制
上一篇
PHP与Vue开发:如何实现会员积分的抽奖机制
Java开发中如何判断合同中的公章是否真实有效
下一篇
Java开发中如何判断合同中的公章是否真实有效
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    7次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    26次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码