新标题:AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路
本篇文章向大家介绍《新标题:AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。
最近在 Arxiv 上阅读到一篇关于纯视觉环视感知的最新研究,该研究基于 PETR 系列方法,并专注于解决远距离目标检测的纯视觉感知问题,将感知范围扩大到150米。这篇论文的方法和结果对我们来说有很大的参考价值,所以我尝试着对其进行解读
原标题:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文链接:https://arxiv.org/abs/2308.09616
作者单位:北京理工大学 & 旷视科技
任务背景
三维物体检测在理解自动驾驶的三维场景方面发挥着重要作用,其目的是对自车周围的物体进行精确定位和分类。纯视觉环视感知方法具有成本低、适用性广等优点,已取得显著进展。然而,它们大多侧重于近距离感知(例如,nuScenes的感知距离约为 50 米),对远距离探测领域的探索较少。检测远距离物体对于实际驾驶中保持安全距离至关重要,尤其是在高速或复杂路况下。
近来,从环视图像中进行三维物体检测取得了显著进展,其部署成本较低。然而,大多数研究主要集中在近距离感知范围,对远距离检测的研究较少。将现有方法直接扩展到覆盖长距离会面临计算成本高、收敛性不稳定等挑战。为了解决这些局限性,本文提出了一种新的基于稀疏查询的框架,称为 Far3D。
论文思路
根据中间表征,现有的环视感知方法可以大致分为两类:基于BEV表征和基于稀疏查询表征的方法。基于BEV表征的方法由于需要计算密集的BEV特征,计算量非常大,难以扩展到远距离场景。而基于稀疏查询表征的方法会从训练数据中学习到全局的3D查询,计算量相对较小,且具有较强的扩展性。然而,它也存在一些弱点,尽管可以避免查询数量的平方增长,但全局固定查询不易适应动态场景,在远距离检测中通常会遗漏目标
图1:Argoverse 2 数据集上,3D 检测和 2D 检测的性能对比。
在远距离检测中,基于稀疏 query 表征的方法有两个主要挑战。
- 首先是召回性能较差。由于 query 在 3D 空间分布的稀疏性,在远距离范围只能产生少量匹配的 positive query。如上图所示,3D 检测的召回率较低,而现有 2D 检测的召回率要高得多,两者之间存在明显的性能差距。因此,利用高质量的 2D 物体先验来改进 3D query 是一种很有潜力的方法,它有利于实现物体的精确定位和全面覆盖。
- 其次,直接引入 2D 检测结果来帮助 3D 检测会面临误差传播的问题。如下图所示,两种主要来源是 1) 由于深度预测不准的物体定位误差;2) 随着距离的增大,视锥变换中的 3D 位置误差也会增大。这些 noisy query 会影响训练的稳定性,需要有效的去噪方法来优化。此外,在训练过程中,模型会表现出对密集的近距离物体过度拟合的倾向,而忽略稀疏分布的远距离物体。
为了应对以上提到的问题,本文采取了以下设计方案:
- 除了从数据集中学到的 3D global query 外,还引入了由 2D 检测结果生成的 3D adaptive query。具体地,首先利用 2D 检测器和深度预测网络得到 2D 框和对应深度,再通过空间变换投射到 3D 空间,作为 3D adaptive query 的初始化。
- 为了适应不同距离的物体的尺度不同,设计了 Perspective-aware Aggergation。它使得 3D query 可以和不同尺度的特征交互,有利于不同距离物体的特征捕捉。比如,远处物体需要大分辨率的特征,而近处则不同。模型通过这种设计可以自适应地与特征交互。
- 设计了一种称为 Range-modulated 3D Denoising 的策略,以减轻 query 错误传播和收敛缓慢的问题。考虑到不同距离的 query 回归难度不同,noisy query 根据真实框的距离和尺度来调整。将 GT 附近的多组 noisy query 输入解码器,来分别实现重建3D 真实框(对于正样本)和舍弃负样本的作用。
主要贡献
- 本文提出了一种新的基于稀疏 query 的检测框架,它利用高质量的 2D object prior 来生成 3D adaptive query, 从而扩大三维检测的感知范围。
- 本文设计了 Perspective-aware Aggregation 模块,它从不同尺度和视角聚合视觉特征,以及一个基于目标距离的 3D Denoising 策略,来解决 query 误差传播和框架收敛问题。
- 在远距离的 Argoverse 2 数据集的实验结果表明,Far3D 超越了此前的环视方法,并优于几种基于激光雷达的方法。并且在 nuScenes 数据集上验证了其通用性。
模型设计
Far3D 流程概览:
- 将环视图像输入主干网络和 FPN 层,编码得到 2D 图像特征,并将其与相机参数进行编码。
- 利用 2D 检测器和深度预测网络,生成可靠的 2D 物体框及其相应深度,然后通过相机变换投影到 3D 空间。
- 生成的3D adaptive query 与初始的 3D global query 相结合,由解码器层迭代回归,以预测 3D 物体框。更进一步,该模型可通过长时序的 query 传播实现时序建模。
Perspective-aware Aggregation:
为了给远距离检测模型引入多尺度特征,本文应用了 3D spatial deformable attention。它先在 query 对应的 3D 位置附近进行偏移采样,而后通过 3D-2D 视图变换聚合图像特征。这种方法替代 PETR 系列中的 global attention 的优势在于,计算量可以大幅降低。具体地,对于 3D 空间中的每个 query 的参考点,模型会学习其周围的 M 个采样偏移,并将这些偏移点投影到不同的 2D 视图特征中。
其后,3D query 与投影得到的采样特征交互。通过这种方式,来自不同视角和尺度的各种特征将通过考虑其相对重要性汇聚到三维查询中。
Range-modulated 3D Denoising:
不同距离的 3D query 具有不同的回归难度,这不同于现有的 2D Denoising 方法(如 DN-DETR, 通常同等对待的2D query)。难度差异来自于 query 匹配密度和误差传播。一方面,与远处物体相对应的 query 匹配度低于近处物体。另一方面,在 3D adaptive query 中引入二维先验时,2D 物体框的微小误差会被放大,更不用说这种影响会随着物体距离的增加而增大。因此,GT 框附近的一些 query 可被视为 positive query,而其他有明显偏差则应被视为 negative query。本文提出一种 3D Denoising 方法,旨在优化那些正样本,并直接舍弃负样本。
具体而言,作者通过同时添加正样本和负样本组来构建基于 GT 的嘈杂查询。对于这两种类型,都会根据物体的位置和大小应用随机噪声,以促进远距离感知中的去噪学习。具体来说,正样本是在3D框内的随机点,而负样本则在GT上施加更大的偏移,偏移范围随着物体的距离变化。这种方法可以在训练过程中模拟有噪声的候选正样本和误报样本
实验结果
Far3D 在 150m 感知范围的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以达到几个 Lidar-based 方法的性能,展现了纯视觉方法的潜力。
为了验证泛化性能,作者也在 nuScenes 数据集上做了实验,表明其在验证集和测试集上都达到 SoTA 性能。
经过消融实验,我们得出了以下结论:3D自适应查询、透视感知聚合和范围调节的3D降噪各自都具有一定的增益
论文思考
Q:这篇文章有什么 novelty?
A:主要 novelty 是解决远距离场景的感知问题。现有方法拓展到远距离场景有许多问题,计算成本和收敛困难等。本文作者为这个任务提出了一个高效的框架。尽管单拎出来各个模块似曾相识,它们都是服务于远处目标的检测的,目标明确。
Q:相比 BevFormer v2, MV2D 有什么区别?
A: MV2D 主要是依赖 2D anchor 去取对应的特征对 3D 进行了绑定,但是没有显式的深度估计,所以对于远距离物体来说不确定性就会比较大,然后难收敛;BevFormer v2 主要解决的是2D backbone与 3D 任务场景之间的domain gap,一般 2D 识别任务上预训练的 backbone 察觉 3D 场景的能力存在不足,并没有探索远距离任务中的问题。
Q: 时序上能否改进,如 query propagation 再加上 feature propagation?
A: 理论上是可行的,但是实际应用中应该考虑performance-efficiency tradeoff。
Q: 还有哪些需要改进的地方?
A: 在长尾问题和远距离评测指标上都值得改进。在 Argoverse 2 这样的 26 类目标上,模型在长尾类别上表现不佳,最终也会降低平均精度,这一点尚未被探索。另一方面,使用统一的指标来评估远距离和近距离物体可能并不合适,这就强调了对实用的动态评估标准的需求,以适应现实世界的不同场景。
原文链接:https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg
今天关于《新标题:AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- 暴打GPT-3.5,谷歌Gemini大杀器官宣免费用!最强代码生成工具上线支持20+语言

- 下一篇
- 一文总结特征增强&个性化在CTR预估中的经典方法和效果对比
-
- 科技周边 · 人工智能 | 3小时前 |
- 沃尔沃XC70亮相,SMA混动加持,年内上市
- 236浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 用豆包A/生成的表情包如何赚钱
- 191浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 小米汽车五一出行报告:超1亿公里行驶
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 | 法拉第未来 第一季度财报 FXSuperOne FX车型 汉福德工厂
- 法拉第未来Q1营收30万,亏损4380万
- 392浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 7次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 7次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 6次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 15次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 26次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览