超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA)
今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA)》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!
写在前面&笔者的个人理解
目前,随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多,工业界和学术界非常希望一个理想的感知算法模型,可以同时完成三维目标检测以及基于BEV空间的语义分割任务。对于一辆能够实现自动驾驶功能的车辆而言,其通常会配备环视相机传感器、激光雷达传感器以及毫米波雷达传感器来采集不同模态的数据信息。从而充分利用不同模态数据之间的互补优势,使得不同模态之间的数据补充优势,比如三维点云数据可以为3D目标检测任务提供信息,而彩色图像数据则可以为语义分割任务提供更加准确的信息。 针对于不同模态数据之间的互补优势,通过将不同模态数据的有效信息转化到同一个坐标系中,便于之后的联合处理以及决策。比如三维点云数据可以转化到基于BEV空间的点云数据,而环视摄像头的图像数据可以通过相机内外参的标定将其投影到3D空间中,从而实现不同模态数据的统一处理。通过利用不同模态数据的优势,可以得到比单一模态数据更为准确的感知结果。 现在,我们已经可以部署在车上的多模态感知算法模型输出更加鲁棒准确的空间感知结果,通过精确的空间感知结果,可以为自动驾驶功能的实现提供更加可靠和安全的保障。
虽然最近在学术界和工业界提出了许多基于Transformer网络框架的多传感、多模态数据融合的3D感知算法,但均采用了Transformer中的交叉注意力机制来实现多模态数据之间的融合,以实现比较理想的3D目标检测结果。但是这类多模态的特征融合方法并不完全适用于基于BEV空间的语义分割任务。此外,除了采用交叉注意力机制来完成不同模态之间信息融合的方法外,很多算法采用基于LSA中前向向量转换方式来构建融合后的特征,但也存在着如下的一些问题:(限制字数,接下来进行具体描述)。
- 由于目前提出的相关多模态融合的3D感知算法,对于不同模态数据特征的融合方式设计的还不够充分,造成感知算法模型无法准确捕获到传感器数据之间的复杂连接关系,进而影响模型的最终感知性能。
- 不同传感器采集数据的过程中难免会引入无关的噪声信息,这种不同模态之间的内在噪声,也会导致不同模态特征融合的过程中会混入噪声,从而造成多模态特征融合的不准确,影响后续的感知任务。
针对上述提到的在多模态融合过程中存在的诸多可能会影响到最终模型感知能力的问题,同时考虑到生成模型最近展现出来的强大性能,我们对生成模型进行了探索,用于实现多传感器之间的多模态融合和去噪任务。基于此,我们提出了一种基于条件扩散的生成模型感知算法DifFUSER,用于实现多模态的感知任务。通过下图可以看出,我们提出的DifFUSER多模态数据融合算法可以实现更加有效的多模态融合过程。  DifFUSER多模态数据融合算法可以实现更加有效的多模态融合过程,方法主要包括两个阶段。首先,我们使用生成模型对输入数据进行降噪和增强,生成干净且丰富的多模态数据。然后,利用生成模型生成的数据进行多模态融合,达到更好的感知效果。 通过DifFUSER算法的实验结果显示,我们提出的多模态数据融合算法可以实现更加有效的多模态融合过程。该算法在实现多模态感知任务时,能够实现更加有效的多模态融合过程,提升模型的感知能力。此外,该算法的多模态数据融合算法可以实现更加有效的多模态融合过程。总而言之
提出的算法模型与其它算法模型的结果可视化对比图
论文链接:https://arxiv.org/pdf/2404.04629.pdf
网络模型的整体架构&细节梳理
"DifFUSER算法的模块细节,基于条件扩散模型的多任务感知算法"是一种用于解决任务感知问题的算法。下图展示了我们提出的DifFUSER算法的整体网络结构。 在这个模块中,我们提出了一种基于条件扩散模型的多任务感知算法,用于解决任务感知问题。该算法的目标是通过在网络中传播和聚合任务特定的信息来提高多任务学习的性能。 DifFUSER算法的整
提出的DifFUSER感知算法模型网络结构图
通过上图可以看出,我们提出的DifFUSER网络结构主要包括三个子网络,分别是主干网络部分、DifFUSER的多模态数据融合部分以及最终的BEV语义分割任务头部分。3D目标检测感知任务头部分。 在主干网络部分,我们使用了现有的深度学习网络架构,如ResNet或VGG等,通过提取输入数据的高级特征。 DifFUSER的多模态数据融合部分使用了多个并行的分支,每个分支用于处理不同的传感器数据类型(如图像、激光雷达和雷达等)。每个分支都有自
- 主干网络部分:该部分主要对网络模型输入的2D图像数据以及3D的激光雷达点云数据进行特征提取用于输出相对应的BEV语义特征。对于提取图像特征的主干网络而言,主要包括2D的图像主干网络以及视角转换模块。对于提取3D的激光雷达点云特征的主干网络而言,主要包括3D的点云主干网络以及特征Flatten模块。
- DifFUSER多模态数据融合部分:我们提出的DifFUSER模块以层级的双向特征金字塔网络的形式链接在一起,我们把这样的结构称为cMini-BiFPN。该结构为潜在的扩散提供了可以替代的结构,可以更好的处理来自不同传感器数据中的多尺度和宽高详细特征信息。
- BEV语义分割、3D目标检测感知任务头部分:由于我们的算法模型可以同时输出3D目标检测结果以及BEV空间的语义分割结果,所以3D感知任务头包括3D检测头以及语义分割头。此外,我们提出的算法模型涉及到的损失则包括扩散损失、检测损失和语义分割损失,通过将所有损失进行求和,并通过反向传播的方式来更新网络模型的参数。
接下来,我们会仔细介绍模型中各个主要子部分的实现细节。
融合架构设计(Conditional-Mini-BiFPN,cMini-BiFPN)
对于自动驾驶系统中的感知任务而言,算法模型能够对当前的外部环境进行实时的感知是至关重要的,所以确保扩散模块的性能和效率是非常重要的。因此,我们从双向特征金字塔网络中得到启发,引入一种条件类似的BiFPN扩散架构,我们称之为Conditional-Mini-BiFPN,其具体的网络结构如上图所示。
渐进传感器Dropout训练(PSDT)
对于一辆自动驾驶汽车而言,配备的自动驾驶采集传感器的性能至关重要,在自动驾驶车辆日常行驶的过程中,极有可能会出现相机传感器或者激光雷达传感器出现遮挡或者故障的问题,从而影响最终自动驾驶系统的安全性以及运行效率。基于这一考虑出发,我们提出了渐进式的传感器Dropout训练范式,用于增强提出的算法模型在传感器可能被遮挡等情况下的鲁棒性和适应性。
通过我们提出的渐进传感器Dropout训练范式,可以使得算法模型通过利用相机传感器以及激光雷达传感器采集到的两种模态数据的分布,重建缺失的特征,从而实现了在恶劣状况下的出色适应性和鲁棒性。具体而言,我们利用来自图像数据和激光雷达点云数据的特征,以三种不同的方式进行使用,分别是作为训练目标、扩散模块的噪声输入以及模拟传感器丢失或故障的条件,为了模拟传感器丢失或故障的条件,我们在训练期间逐渐将相机传感器或激光雷达传感器输入的丢失率从0增加到预定义的最大值a=25。整个过程可以用下面的公式进行表示:
其中,代表当前模型所处的训练轮数,通过定义dropout的概率用于表示特征中每个特征被丢弃的概率。通过这种渐进式的训练过程,不仅训练模型有效去噪并生成更具有表现力的特征,而且还最大限度地减少其对任何单个传感器的依赖,从而增强其处理具有更大弹性的不完整传感器数据的能力。
门控自条件调制扩散模块(GSM Diffusion Module)
具体而言,门控自条件调制扩散模块的网络结构如下图所示
门控自条件调制扩散模块网络结构示意图
实验结果&评价指标
定量分析部分
为了验证我们提出的算法模型DifFUSER在多任务上的感知结果,我们主要在nuScenes数据集上进行了3D目标检测以及基于BEV空间的语义分割实验。
首先,我们比较了提出的算法模型DifFUSER与其它的多模态融合算法在语义分割任务上的性能对比情况,具体的实验结果如下表所示:
不同算法模型在nuScenes数据集上的基于BEV空间的语义分割任务的实验结果对比情况
通过实验结果可以看出,我们提出的算法模型相比于基线模型而言在性能上有着显著的提高。具体而言,BEVFusion模型的mIoU值只有62.7%,而我们提出的算法模型已经达到了69.1%,具有6.4%个点的提升,这表明我们提出的算法在不同类别上都更有优势。此外,下图也更加直观的说明了我们提出的算法模型更具有优势。具体而言,BEVFusion算法会输出较差的分割结果,尤其在远距离的场景下,传感器错位的情况更加明显。与之相比,我们的算法模型具有更加准确的分割结果,细节更加明显,噪声更少。
提出算法模型与基线模型的分割可视化结果对比
此外,我们也将提出的算法模型与其它的3D目标检测算法模型进行对比,具体的实验结果如下表所示
不同算法模型在nuScenes数据集上的3D目标检测任务的实验结果对比情况
通过表格当中列出的结果可以看出,我们提出的算法模型DifFUSER相比于基线模型在NDS和mAP指标上均有提高,相比于基线模型BEVFusion的72.9%NDS以及70.2%的mAP,我们的算法模型分别要高出1.8%以及1.0%。相关指标的提升表明,我们提出的多模态扩散融合模块对特征的减少和特征的细化过程是有效的。
此外,为了表明我们提出的算法模型在传感器故障或者遮挡情况下的感知鲁棒性,我们进行了相关分割任务的结果比较,如下图所示。
不同情况下的算法性能比较
通过上图可以看出,在采样充足的情况下,我们提出的算法模型可以有效的对缺失特征进行补偿,用于作为缺失传感器采集信息的替代内容。我们提出的DifFUSER算法模型生成和利用合成特征的能力,有效地减轻了对任何单一传感器模态的依赖,确保模型在多样化和具有挑战性的环境中能够平稳运行。
定性分析部分
下图展示了我们提出的DifFUSER算法模型在3D目标检测以及BEV空间的语义分割结果的可视化,通过可视化结果可以看出,我们提出的算法模型具有很好的检测和分割效果。
结论
本文提出了一个基于扩散模型的多模态感知算法模型DifFUSER,通过改进网络模型的融合架构以及利用扩散模型的去噪特性来提高网络模型的融合质量。通过在Nuscenes数据集上的实验结果表明,我们提出的算法模型在BEV空间的语义分割任务中实现了SOTA的分割性能,在3D目标检测任务中可以和当前SOTA的算法模型取得相近的检测性能。
到这里,我们也就讲完了《超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA)》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于自动驾驶,扩散模型的知识点!

- 上一篇
- 使用 Java 函数进行部署和管理的最佳实践有哪些?

- 下一篇
- 广汽埃安跻身全球独角兽榜单,估值达千亿
-
- 科技周边 · 人工智能 | 5小时前 |
- 腾讯混元3Dv2.5新版3D模型震撼发布
- 307浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- Llama4震撼发布,Meta开源多模态AI霸主
- 417浏览 收藏
-
- 科技周边 · 人工智能 | 15小时前 | 深蓝汽车
- 深蓝汽车4月销量2.01万辆,同比增58%
- 170浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 16次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 12次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 12次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 16次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 17次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览