当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > ADMap:抗干扰在线高精地图新思路

ADMap:抗干扰在线高精地图新思路

来源:51CTO.COM 2024-04-23 19:33:11 0浏览 收藏

小伙伴们有没有觉得学习科技周边很有意思?有意思就对了!今天就给大家带来《ADMap:抗干扰在线高精地图新思路》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!

写在前面&笔者的个人理解

很高兴受邀参加自动驾驶之心的活动,我们将分享在线重建矢量化高精度地图的抗扰动方法ADMap。你可以在https://github.com/hht1996ok/ADMap 上找到我们的代码。感谢大家的关注和支持。

在自动驾驶领域,在线高清地图重建对于规划和预测任务具有重要意义,近期的工作构建了许多高性能的高清地图重建模型来满足这一需求。然而矢量化实例内部的点序由于预测偏差可能会出现抖动或锯齿现象,从而影响后续任务。因此,我们提出了Anti-Disturbance Map reconstruction framework(ADMap)。本文希望兼顾模型速度和整体的精度,并且在部署时不会让工程师们感到困扰。因此,提出了三个高效且有效的模块:Multi-Scale Perception Neck(MPN)、Instance Interactive Attention(IIA)和Vector Direction Difference Loss(VDDL)。通过级联的探索实例间和实例内部的点序关系,我们的模型更好地监督了点序的预测过程。

我们在nuScenes和Argoverse2数据集中验证了ADMap的有效性。实验结果表明,ADMap在各项基准测试中均表现出最佳性能。在nuScenes基准中,ADMap在使用仅相机数据和多模态数据的情况下,mAP相比基准分别提高了4.2%和5.5%。ADMapv2不仅降低了推理延迟,还显著提升了基线性能,最高mAP达到了82.8%。在Argoverse数据集中,ADMapv2的mAP提高至62.9%,同时帧率保持在14.8FPS。

总结来说,我们提出的ADMap主要有以下几点贡献:

  • 提出了端到端的ADMap,重建了更稳定的矢量化高精地图。
  • MPN在不增加推理资源的情况下更好的捕捉了多尺度信息,IIA完成了实例间和实例内部的有效交互,使点级特征更准确,VDDL更细致的约束了点序重建过程,在点序的几何关系上进行监督。
  • ADMap实现了矢量化高精地图的实时重建,并且在nuScenes基准和Argoverse2中达到了最高精度。

方法提出

如图1所示,实例中的预测点往往会不可避免的出现抖动或偏移现象,这种抖动会导致重建后的实例矢量变得不平滑或锯齿状,严重影响了在线高精地图的质量和实用性。我们认为,其原因在于现有模型并未充分考虑实例间和实例内部的交互方式,实例点与地图拓扑信息不完全的交互会导致其预测位置的不准。此外仅通过L1 loss和cosine embedding loss等监督无法有效的利用几何关系来约束实例点的预测过程,网络需要利用各点间的矢量线段来精细捕捉点序的方向信息以更准确的约束每个点的预测过程。

ADMap:抗干扰在线高精地图新思路

为了缓解以上问题,我们创新的提出了Anti-Disturbance Map reconstruction framework(ADMap),实现了矢量化高精地图的实时稳定重建。

方法设计

如图2所示,ADMap通过多尺度感知颈(Multi-Scale Perception Neck,MPN)、实例交互注意力(Instance Interactive Attention,IIA)和矢量方向差损失(Vector Direction Difference Loss,VDDL)来更精细地预测点序拓扑结构。下面将分别介绍MPN、IIA以及VDDL。

ADMap:抗干扰在线高精地图新思路

Multi-Scale Perception Neck

为了获得更详细的BEV特征,我们引入了Multi-Scale Perception Neck(MPN)。MPN接收融合后的BEV特征作为输入。通过下采样,每个层级的BEV特征将连接到一个上采样层,以恢复原始尺寸的特征图。最终,各层级的特征图将合并成多尺度的BEV特征。

如图2中的虚线代表该步骤仅在训练时实施,实线代表训练和推理过程都会实施该步骤。在训练过程中,多尺度BEV特征图和每一层级的BEV特征图都会被送入Transformer Decoder,这使网络可以在不同尺度预测场景的实例信息以捕捉更精细的多尺寸特征。而在推理过程中,MPN仅保留多尺度BEV特征,不会输出各层级特征图,这保证了该neck在推理时的资源占用不变。

Transformer Decoder

Transformer Decoder中定义了一组实例级别的查询和一组点级别的查询,随后将点级别查询共享到所有实例中,这些分层查询被定义为:

ADMap:抗干扰在线高精地图新思路

解码器包含几个级联的解码层,这些层迭代地更新分层查询。在各解码层中,分层查询被输入到自注意力机制中,这使得分层查询间可以相互交换信息,Deformable Attention被用来交互分层查询和多尺度BEV特征。

Instance Interactive Attention

为了在解码阶段更好的获取各实例特征,我们提出了Instance Interactive Attention(IIA),其由Instances self-attention和Points self-attention组成。不同于MapTRv2并行提取实例级和点级别的嵌入,IIA级联地提取了查询嵌入。实例嵌入间的特征交互进一步帮助了网络学习点级嵌入间的关系。

ADMap:抗干扰在线高精地图新思路

如图3所示,Deformable cross-attention输出的分层嵌入被输入到Instances self-attention。将点维度与通道维度合并后维度变换为。随后,分层嵌入接入由多个MLP组成的Embed Layer中获得实例查询,该查询被放入Multi-head self-attention中来捕捉实例间的拓扑关系,得到实例嵌入。为了在点级嵌入中融入实例级别信息,我们将实例嵌入和分层嵌入相加。相加后的特征被输入至Point self-attention中,对各实例内的点特征进行交互,进一步精细关联了点序间的拓扑关系。

Vector Direction Difference Loss

高精地图中包含了矢量化的静态地图元素,包括车道线、路沿和人行横道等。ADMap针对这些开放形状(车道线、路沿)和封闭形状(人行横道)提出了Vector Direction Difference Loss。我们建模了实例内部的点序矢量方向,通过预测矢量方向和真实矢量方向的差值可以更细致的监督点的方向。此外,真实矢量方向差较大的点被认为代表了部分场景拓扑的剧烈变化(更不容易预测),更加需要被模型关注。因此,真实矢量方向差较大的点被赋予了更大的权重,以保证网络可以准确预测到这个剧烈变化的点。

ADMap:抗干扰在线高精地图新思路

图4展示了预测点序{ 和真实点序{ 中对预测矢量线{ 和真实矢量线{ 的初始建模。为了保证相反的角度不会得到相同的损失,我们计算矢量线角度差余弦值θ':

ADMap:抗干扰在线高精地图新思路

其中函数累加了矢量线的坐标位置,代表归一化操作。我们利用真实实例中各点的矢量角度差来为它们赋予不同大小的权重。权重定义如下:

ADMap:抗干扰在线高精地图新思路

其中代表实例中点的数量,函数代表底数为e的指数函数。由于首尾两点无法计算矢量角度差,因此我们将首尾点的权重设置为1。当真实值中的矢量角度差变大时,我们赋予该点更大的权重,这使得网络更为关注显著变化的地图拓扑结构。点序中各点的角度差损失定义为:

ADMap:抗干扰在线高精地图新思路

我们使用θ将损失值的区间调整为[0.0, 2.0]。通过将各点的相邻矢量线角度差余弦相加,该损失更全面的涵盖了各点的几何拓扑信息。由于首尾两点仅有一根相邻矢量线,因此首尾两点的损失为单个矢量角度差的余弦值。

实验

为了公平的评估,我们将地图元素分为车道线、道路边界和人行横道三种。采用平均精度(AP)来评估地图构建的质量,使用预测点序和真实点序的chamfer距离之和来判断两者是否匹配。Chamfer距离阈值设置为[0.5, 1.0, 1.5],我们分别在这三种阈值下计算AP,并将平均值作为最终指标。

对比实验

ADMap:抗干扰在线高精地图新思路

表1报告了ADMap和最先进方法在nuScenes数据集的指标。在camera-only框架下,ADMap的mAP相较于baseline(MapTR)提高了5.5%,ADMapv2相较于baseline(MapTRv2)提高了1.4%。ADMapv2最高mAP达到82.8%,取得当前基准中最佳性能,部分细节会在后续arxiv版本中公布。在速度方面,ADMap相较于其baseline在FPS略微降低的情况下显著提高模型性能。值得一提的是,ADMapv2不仅提高了性能,在模型推理速度方面也有提升。

ADMap:抗干扰在线高精地图新思路

表2报告了ADMap和最先进方法在Argoverse2中的指标。在camera-only框架下,ADMap和ADMapv2相较于baseline分别提高了3.4%和1.3%。在多模态框架下,ADMap和ADMapv2达到了最佳性能,mAP分别为75.2%和76.9%。在速度方面。ADMapv2相较于MapTRv2提升了11.4ms。

消融实验

在表 3 中,我们提供了在 nuScenes 基准上ADMap各个模块的消融实验。

ADMap:抗干扰在线高精地图新思路

表4给出了插入不同注意力机制对于最终性能的影响。DSA表示decoupled self-attention,IIA表示实例交互注意力。结果表示IIA相较于DSA,mAP提高1.3%。

ADMap:抗干扰在线高精地图新思路

表5报告了在融合特征后增加backbone和neck层对mAP的影响。增加基于SECOND的backbone和neck层后,mAP提高了1.2%。而增加MPN后,在不增加推理时间的前提下,模型的mAP提高了2.0%。

ADMap:抗干扰在线高精地图新思路

表6报告了在nuScenes基准中增加VDDL对性能的影响。可以看到,当权重设置为1.0时,mAP最高,达到了53.3%。

ADMap:抗干扰在线高精地图新思路

表7报告了在nuScenes基准中,MPN下采样层数对最终性能的影响。下采样层数越多,模型推理速度越慢。因此,为了平衡速度和性能,我们设置了下采样层数为2。

ADMap:抗干扰在线高精地图新思路

为了验证ADMap有效缓解了点序扰动问题,我们提出了average chamfer distance(ACE)。我们挑选了chamfer distance之和小于1.5的预测实例,并计算它们的average chamfer distance(ACE)。当ACE越小代表实例点序预测的越准确。表8证明了ADMap可以有效缓解点云扰动这一问题。

ADMap:抗干扰在线高精地图新思路

可视化结果

下面两幅图为nuScenes数据集和Argoverse2数据集中的可视化结果。

ADMap:抗干扰在线高精地图新思路

ADMap:抗干扰在线高精地图新思路

总结

ADMap是一个高效且有效的矢量化高精地图重建框架,其有效缓解了实例矢量的点序由于预测偏差可能会出现的抖动或锯齿现象。大量实验表明,我们提出的方法在nuScenes和Argoverse2基准上均取得最佳性能。我们相信ADMap协助推进矢量高精地图重建任务的研究,从而更好地推动自动驾驶等领域的发展。

文中关于模型,高精地图的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《ADMap:抗干扰在线高精地图新思路》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Java函数与PHP语言函数的区别?Java函数与PHP语言函数的区别?
上一篇
Java函数与PHP语言函数的区别?
Apple Watch十周年大动作:将引入革命性血压监测功能
下一篇
Apple Watch十周年大动作:将引入革命性血压监测功能
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    7次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    26次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码