当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 多车协作让纯视觉3D目标探测媲美激光雷达

多车协作让纯视觉3D目标探测媲美激光雷达

来源:51CTO.COM 2023-04-30 06:36:10 0浏览 收藏

来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《多车协作让纯视觉3D目标探测媲美激光雷达》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!

摄像头能否实现激光雷达的检测效果,以更低成本实现自动驾驶感知?在最新的 CVPR2023 论文《Collaboration helps camera overtake LiDAR in 3D detection》中,来自上海交通大学、加州大学洛杉矶分校、以及上海人工智能实验室的研究者提出了纯视觉协作探测方法(CoCa3D),通过让多个基于纯视觉的智能车高效协作,在 3D 目标探测效果上,接近甚至超越基于激光雷达的智能车。

多车协作让纯视觉3D目标探测媲美激光雷达


论文标题:Collaboration Helps Camera Overtake LiDAR in 3D Detection

论文链接:https://arxiv.org/abs/2303.13560

代码链接:https://github.com/MediaBrain-SJTU/CoCa3D

研究目的和意义

近年来,自动驾驶感知领域存在着巨大的技术分歧:以 Waymo 为代表的多传感器融合派以激光雷达为主传感器,而以 Tesla 为代表的视觉优先派坚持使用纯摄像头。其中激光雷达的主要问题在于价格昂贵,Velodyne 的 64 线激光雷达成本为 75,000 美金左右,成本高,难以扩大规模。纯视觉的方案极低地降低了成本,Autopilot 2.+ 的 BOM 成本控制在 2,500 美金左右。但同激光雷达相比,摄像头缺乏深度信息,在 3D 空间的目标检测上存在天然巨大劣势。虽然近年来基于鸟瞰图(BEV)的技术方法快速发展,大大提升了纯视觉探测的效果,但距离激光雷达的探测效果依旧相去甚远。

为了突破纯视觉 3D 空间感知能力瓶颈,CoCa3D 开辟了多车协作的全新维度,从物理属性上迅速提升纯视觉 3D 目标检测能力。多辆纯视觉智能车通过分布式地交换关键信息,使得来自多车多视角几何信息可以互相校验,能够有效提升 2D 相机对 3D 空间的感知能力,从而接近激光雷达的探测效果。除此之外,多车多视角观测信息的互相补充,能突破单体感知的视角局限性,实现更完备的探测,有效缓解遮挡和远距离问题,进而超越单个激光雷达的 3D 空间感知效果。

多车协作让纯视觉3D目标探测媲美激光雷达

图 1. 多车协作可以避免 “鬼探头” 引发的事故,实现更安全的智能驾驶

关键问题

与许多多视角几何问题不同,多个纯视觉车协作依赖先进的通信系统来进行信息交互,而现实情况下通信条件多变且受限。因此,多个纯视觉车协作的关键问题在如何在通信带宽限制的情况下,选择最关键的信息进行共享,弥补纯视觉输入中缺失的深度信息,同时弥补单视角下视野受限区域缺失的信息,提升纯视觉输入的 3D 空间感知能力。

研究方法 

CoCa3D 考虑以上关键问题,进行了两个针对性的设计。

首先,协作信息应包含深度信息,这将使得来自多个纯视觉车的不同角度的观测,缓解单点观测的深度歧义性,相互矫正定位正确的深度。同时,每个纯视觉车过滤掉不确定性较高的深度信息,选择最关键的深度信息分享,减少带宽占用。最高效地弥补纯视觉输入相比 LiDAR 输入缺失的深度信息,实现接近的 3D 检测效果。

其次,协作信息中应包含检测信息以缓解单点观测的视角局限性,例如遮挡和远程问题,相互补充检测信息正确定位物体。并潜在地实现了更全面的 3D 检测,即检测所有存在于三维场景中的目标,包括那些超出视觉范围的目标。同时,每个纯视觉车过滤掉置信度较低的检测信息,选择最关键的检测信息分享,减少带宽占用。由于 LiDAR 也受到视野有限的限制,这潜在地使得多个纯视觉车协作有可能取得胜过 LiDAR 的探测效果。

基于此动机,CoCa3D 整体系统包括两个部分,单体相机 3D 检测,实现基本的深度估计和检测能力,以及多体协作,共享估计的深度信息和检测特征以提高 3D 表示和检测性能。其中多体协作由协作特征估计和协作检测特征学习两个关键部分构成。

多车协作让纯视觉3D目标探测媲美激光雷达

图 2. CoCa3D 整体系统框图。协作深度估计(Collaborative depth estimation)和协作检测特征学习(Collaborative detection feature learning)是两大关键模块

协作深度估计(Collaborative depth estimation, Co-Depth):旨在消除单体相机深度估计中深度的歧义性,并通过多视图的一致性定位正确的候选深度。直觉是,对于正确的候选深度,其对应的 3D 位置从多个代理的角度来看应该在空间上是一致的。为此,每个协作者可以通过通信交换深度信息。同时,通过选择最关键和明确的深度信息来提高通信效率。Co-Depth 由两部分构成:a) 基于不确定性的深度消息打包模块,将确定的深度信息打包为紧凑的消息包传递出去;和 b) 深度信息融合模块,通过与接收到的来自其他协作者视角的深度消息校验来缓解自身单视角下深度估计的歧义性。

协作检测特征学习(Collaborative detection feature learning, Co-FL):协作深度估计会仔细细化深度并为每个智能体提供更准确的 3D 表示。然而,单一智能体的物理局限性,如视野受限、遮挡和远程问题仍然存在。为了实现更全面的 3D 检测,每个智能体都应该能够交换 3D 检测特征并利用互补信息。同时,通过选择感知上最关键的信息来提高通信效率。核心思想是探索感知信息的空间异质性。直觉是包含目标的前景区域比背景区域更关键。在协作过程中,带有目标的区域可以帮助恢复由于有限视野而导致的漏检问题,而背景区域则可以忽略以节省宝贵的带宽。Co-FL 由两部分构成:a)基于检测置信度的感知信息打包模块,在检测置信度的指导下打包空间稀疏但感知上关键的三维特征;和 b)检测信息融合模块,通过补充接收到的来自其他协作者视角的检测信息来提升自身受限视角下的不完备的三维特征。

多车协作让纯视觉3D目标探测媲美激光雷达

图 3. 数据集 CoPerception-UAVs + 和 OPV2V + 仿真环境

多车协作让纯视觉3D目标探测媲美激光雷达

图 4. 数据集 CoPerception-UAVs+、DAIR-V2X 和 OPV2V + 样本可视化

实验效果

为全面展示本文所提出的 CoCa3D 的优异性能,研究者在三个数据集上对其进行验证,包括无人飞机集群数据 CoPerception-UAVs+, 车路协同仿真数据集 OPV2V+,以及车路协同真实数据集 DAIR-V2X。其中 CoPerception-UAVs + 是原始的 CoPerception-UAVs(NeurIPS22)的扩展版本,包括更多的智能体(约 10 个),是更一个大规模无人机协同感知的数据集,由 AirSim 和 CARLA 共同模拟生成。OPV2V + 是原始的 OPV2V(ICRA 22)的扩展版本,包括更多的智能体(约 10 个),是更一个大规模车路协同的数据集,由 OpenCDA 和 CARLA 共同模拟生成。

多车协作让纯视觉3D目标探测媲美激光雷达

图 5. CoCa3D 在多数据集上均取得了接近激光雷达的 3D 目标检测效果

研究者发现,CoCa3D(实线)在 10 个相机的协作下在 OPV2V+ 上的 AP@0.5/0.7 都优于 LiDAR 3D 检测!由于真实车路协同数据集 DAIR-V2X 仅有 2 个协作相机,我们使用 OPV2V + 的斜率来拟合真实车路协同数据集上的检测性能与协作相机个数的函数,发现在实际场景中,仅 7 个协作相机即可实现优于 LiDAR 3D 检测的效果!此外,随着协作代理数量的增加,检测性能的稳步提高鼓励协作者积极协作并实现持续改进。

基于协同感知数据集 OPV2V+,研究者对比了单体感知和协作感知在 3D 目标探测任务的效果,如下面的动图所示(绿框为真值,红框为检测框)。a/b 图展示了单个相机 / 激光雷达的探测效果,受限于传感器的探测范围和物理遮挡,右侧路口的多量车难以被有效探测,c 图展示了多个无人车的相机协作探测的效果,基于本文提出的 CoCa3D 方法,实现了超视距的感知。由此可见,协作感知通过同一场景中多智能体之间互通有无,分享感知信息,使得单个智能体突破自身传感器的局限性获得对整个场景更为准确全面的理解。

多车协作让纯视觉3D目标探测媲美激光雷达

图 6. 3D 检测结果 3D 视角和 BEV 视角可视化(红框为检测框,绿框为真值)。(a) 单个相机检测效果可视化,(b) 激光雷达检测效果可视化,(c) 协作相机检测效果可视化。

CoCa3D(红线)在多个数据集上多种通信带宽条件下均实现 3D 感知效果的大幅提升

值得注意的是,相比之前的基线方法 V2X-ViT(ECCV 22),针对某个特定通信量进行了有针对性的模型训练,因此在通信量 - 探测效果的图中是一个单点。而 CoCa3D 可以自动调整和适应各个通信量,因此是一条曲线。由此可见,CoCa3D 实现了感知效果与通信消耗的有效权衡,能自适应资源多变的通信环境,且在各种通信条件下均取得了优于基线方法 Where2comm(NeurIPS 22)的感知效果。

多车协作让纯视觉3D目标探测媲美激光雷达

图 7. CoCa3D 在多个数据集上多种通信带宽条件下均取得最优的 3D 感知效果

CoCa3D 有效提升单体深度估计,使得协作深度估计接近真实深度

研究者发现:i)单个视角下深度估计可以估计相对深度,但无法精确地定位深度绝对位置,例如,车辆比其所在的平面更高,但这个平面没有正确分类;ii)通过协作的深度信息分享,引入多视图几何,协作估计的深度可以平稳而准确地定位平面;iii)对于远距离和背景区域,深度的不确定性较大。原因是远处的区域很难定位,因为它们占用的图像像素太少,而背景区域由于没有纹理表面而难以定位。

多车协作让纯视觉3D目标探测媲美激光雷达

图 8 深度和不确定性的可视化

总结与展望

CoCa3D 聚焦在核心思想是引入多体协作来提高纯视觉的 3D 目标检测能力。同时,优化了通信成本,每个协作者都仔细选择空间稀疏但关键的消息进行共享。相关技术方法将 AI 和通信技术高度整合,对车路协同,无人集群等群体智能应用有着深刻影响。在未来,也期待这种思路可以被更广泛应用于高效提升单体的各类型能力,将协作感知拓展到协作自动系统,全方位地提升单体智能。

理论要掌握,实操不能落!以上关于《多车协作让纯视觉3D目标探测媲美激光雷达》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Meta发布多用途大模型开源代码,为离视觉大一统更进一步打下基础Meta发布多用途大模型开源代码,为离视觉大一统更进一步打下基础
上一篇
Meta发布多用途大模型开源代码,为离视觉大一统更进一步打下基础
win11怎么进入高级启动选项设置
下一篇
win11怎么进入高级启动选项设置
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    14次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    11次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码