当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

来源:机器之心 2024-10-29 20:48:40 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文第一作者林宏彬来自香港中文大学 (深圳) Deep Bit 实验室,导师为李镇老师。实验室专注于利用人工智能技术进行跨学科研究,例如自动驾驶的三维感知、医学成像和分子理解的多模态数据分析和生成等。研究领域涵盖计算机视觉、机器 / 深度学习和 AI4Science。感兴趣的同学可以在主页上获取更多信息https://mypage.cuhk.edu.cn/academics/lizhen/

全自动驾驶系统的纯视觉方案如特斯拉 “Tesla Vision”,仅依赖于摄像头收集的图像数据,旨在实现高效且成本效益高的自动驾驶技术。在现实场景中,视觉感知模型在面对训练数据分布外场景的泛化能力尤为关键。来自香港中文大学(深圳)、新加坡国立大学、昆仑万维和南洋理工大学的学者们提出了一种名为 MonoTTA 的单目三维检测模型的实时测试时自适应方法。该方法使模能在测试阶段实时进行快速的无监督学习,显著提升了其在未知测试分布上的表现。

MonoTTA 通过自适应挖掘高置信度物体,同时利用负标签以缓解伪标签的噪音,有效减少了模型的漏检和误检,从而帮助单目三维检测模型的实时泛化。目前代码已开源,欢迎感兴趣的小伙伴到 GitHub 查看更多展示视频。

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

  • 论文链接:https://arxiv.org/pdf/2405.19682
  • GitHub:https://github.com/Hongbin98/MonoTTA

纯视觉方案在自动驾驶的落地应用还有多远?

近年来,纯视觉自动驾驶系统在全球汽车行业中引起了广泛关注,标志着自动驾驶技术向更高智能化的迈进。不禁让人思考,在自动驾驶领域真正实现纯视觉方案还有多远呢? 

在自动驾驶领域,纯视觉方案的泛化能力至关重要。然而,传统的机器学习技术通常依赖大量预先收集的数据来训练模型。实际应用中,测试数据的分布往往与训练数据不同,这种现象称为 “分布偏移”。分布偏移在实际测试中往往可能表现为:1)自然天气的变化导致道路上的物体被遮挡(如雾、雪),或光线条件显著变化;2)由于驾驶过程中的摄像头抖动,出现画面模糊;3)模型训练数据来自某个四季如春的城市,但在高纬度的城市进行测试。这些常见但棘手的分布偏移问题对深度学习模型的影响很大,往往导致模型性能显著下降,严重制约了其在室外场景的广泛部署。

纯视觉方案在遭遇分布偏移时具体会有什么问题呢?以单目三维检测模型为例,如图 2 所示,当一个经过良好训练的模型直接应用于受自然气候干扰(如雪和雾)影响的非训练分布测试场景时,相比在训练数据相同分布(即晴天)的场景,分布外测试数据中的物体检测分数会显著下降。正如我们在恶劣天气下行车,视野范围内的车辆、行人也会变得模糊不清,很难判断清楚远方到底是不是有其他车辆。然而当前的单目三维检测方法通常使用固定的分数阈值(如 0.2)来进行物体检测,物体检测分数的大幅下降导致单目三维检测模型出现大量漏检、错检,从而使得模型的性能大幅下降。
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
                                       图 2 单目三维检测模型在域外场景下呈现物体检测分数的大幅下降,导致大量漏检、错检

那么该如何解决分布偏移呢?为了应对数据分布的潜在偏移和算法在实际应用场景中对可扩展性和时效性的需求,一种可行的范式是测试时自适应(Test-Time Adaptation, TTA)。该范式要求算法在测试阶段指导模型进行快速无监督 / 自监督学习,是当前用于提升深度模型分布外泛化能力的一种强有效工具。而其中一种更快速、更实时的子范式即实时测试时自适应(Fully Test-Time Adaptation, Fully TTA),其旨在通过在线方式利用连续的测试数据流实时调整和优化模型,缓解数据分布偏移带来的问题从而显著提高模型的性能。该范式能够满足现实场景下的算法部署与实时优化需求,因此吸引了学术界和工业界越来越多的关注。

现存 Fully TTA 方法却往往难以应对分布差异很大的检测任务。例如在极端的天气条件下,如图 2 中的雪天,单目三维检测模型往往无法生成足够的高分检测结果。通俗地说,模型在极端天气下会出现绝大部分物体对象都看不到了的问题。然而,现有的 Fully TTA 方法却是依赖于模型先检测出物体对象,再进行模型的实时适应。因此,这些方法在具有极大差异的分布外场景下难以对模型进行实时调整,换而言之,缺乏挖掘未被正确识别的物体(即漏检)的能力

技术方案

基于前面的讨论,我们不禁思考:要怎么去设计一个 TTA 方法,去实现这种挖掘未被正确识别的物体(即漏检)的能力呢?来自香港中文大学(深圳)、新加坡国立大学、昆仑万维和南洋理工大学的学者们给出了他们的看法。学者们提出了一个针对单目三维检测模型的实时测试时自适应方法(Monocular Test-Time Adaptation,MonoTTA),其由以下两个适应策略所组成:1) 基于可靠物体对象的模型自适应;2) 基于负标签优化的伪标签噪音缓解。具体细节阐述如下: 

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

                                          图 3 MonoTTA 方法整体框架图

基于可靠物体对象的模型自适应:具体而言,测试数据分布的变化会导致物体对象的检测分数骤降,从而引起漏检和错检。而学者们通过分析发现,即便在域外场景下,高检测分数的物体对象仍然是相对可靠的(如下图 4(a)所示)。此外,即使仅通过高分物体对象(例如,score≥0.5)来优化模型,低分和高分对象的数量都会增加(即图 4(b))。这些观察启发我们要利用高分物体对象而不是所有物体对象进行模型适应,这将是一种更可靠的方式来缓解数据分布变化并发掘潜在物体对象。

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

                                      图 4 针对各自域外场景下的物体对象检测分数分析

基于上述观察可以发现:域外场景下高分对象不仅是相对可靠的,还可以通过高分对象的这种相对可靠的模型优化,发掘出更多的低分潜在物体对象!这启发学者们设计了适应性优化损失 单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024 来利用可靠物体对象子集进行模型适应,从而缓解域外分布的测试数据检测分数下降问题,并挖掘出更多潜在对象:

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

这里的 单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024 是在迭代伦次 t 下的自适应阈值,这是考虑到实际测试场景的分布差异是未知的,因此开发了一种自适应策略,用于在测试图像中自动识别可靠的高分对象。

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

其中,单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024为所有检测到的物体对象的平均分数,β 是衰减系数,而 γ 则是遵循原方法的预定义物体检测阈值。B 为批量大小,单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024为单张图片下的最大检测物体对象数目,单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024则对应每个检测物体的具体分数值。

基于负标签优化的伪标签噪音缓解:虽然通过图片的优化,模型能有效缓解漏检问题。但像我们先前讨论的,一种极端情况是数据分布差异还会导致高分对象的极度稀缺,如上图 4(a)中的雪天场景,此时大多数对象呈现低分,无法利用高分样本以优化模型。为此,学者们开发了一个负标签正则化项,以合理利用众多低分物体对象以进行负标签学习。一方面,负标签正则化项 单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024允许模型通过众多存在噪声的低分对象进行模型适应,从而使得模型在缓解分布变化后获得更多高分物体对象;另一方面,这一正则化项也防止了模型过度拟合噪声和简易解,例如给一个对象的所有类别分配高分。

具体地,对那些低于自适应阈值 图片的物体对象,基于每个类别的具体频率 单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024 ,求和得到最终损失值:

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

而每个类别下的正则约束项有:

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

其中,单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024是常数权重,单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024则是具体检测物体对象对于负类别 k 下的检测分数。

通俗来说,极端情况下模型往往难以直接辨别出物体是什么,但相较之下模型有更大的把握知道物体对象不属于某个具体类别。特别是极端场景下,图片会在模型适应中扮演了更重要的角色。因为它可以通过只利用低分数的对象(即否定负面类别)来缓解分布偏移,换句话说,图片使得模型在极端场景下仍然能够减轻分布偏移并获得更多相对高分的对象,从而为图片的计算奠定了关键基础。

实验

方法有效性:MonoTTA 能为现存单目三维检测方法带来可观的性能提升:实验结果展示了探索的新方法可以在域外分布测试场景中为单目三维检测模型带来显著的改进,例如,在所制作的 KITTI-C 数据集上的 13 种类型(囊括了噪音、模糊、天气变化以及设备退化影响)的分布外偏移中,平均性能提升了 137% 和 244%。

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

此外,学者们还进一步在 nuScenes 数据集的白天到黑夜(Daytime → Night)和黑夜到白天(Night → Daytime)两个在真实数据场景下做进一步实验,验证了所提出方法的有效性:

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

结果可视化:进一步提供了可视化结果如下图所示

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

并且,基于 KITTI-RAW 数据提供了相应的 demo 视频(更多示例视频见 Github 链接),其中左边为原方法,而右边则对应 MonoTTA 实时适应后的检测结果。基于单张 4090 显卡,MonoTTA 仅需约 45ms 即可适配一张 1280X384 的测试图像,即 fps >=15。相信通过量化部署优化,这个速度还能被进一步提升。

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

                               Defocus 1(画面模糊 - 等级 1)
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
                                   Fog 1(雾天 - 等级 1)

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

                                 Gaussian 1(高斯噪声 - 等级 1)
 基于上述实验结果,有理由相信通过单目三维检测模型的实时适应,该论文所设计的方法能够有效地提高模型的泛化性能,从而提升单目三维检测在自动驾驶中的落地和应用。

本篇关于《单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Go 如何实现字典排序和签名生成?Go 如何实现字典排序和签名生成?
上一篇
Go 如何实现字典排序和签名生成?
老联想电脑怎么设置u盘启动?
下一篇
老联想电脑怎么设置u盘启动?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    15次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    15次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    43次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    43次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    38次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码