ADMap:抗干扰在线高精地图新思路
小伙伴们有没有觉得学习科技周边很有意思?有意思就对了!今天就给大家带来《ADMap:抗干扰在线高精地图新思路》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!
写在前面&笔者的个人理解
很高兴受邀参加自动驾驶之心的活动,我们将分享在线重建矢量化高精度地图的抗扰动方法ADMap。你可以在https://github.com/hht1996ok/ADMap 上找到我们的代码。感谢大家的关注和支持。
在自动驾驶领域,在线高清地图重建对于规划和预测任务具有重要意义,近期的工作构建了许多高性能的高清地图重建模型来满足这一需求。然而矢量化实例内部的点序由于预测偏差可能会出现抖动或锯齿现象,从而影响后续任务。因此,我们提出了Anti-Disturbance Map reconstruction framework(ADMap)。本文希望兼顾模型速度和整体的精度,并且在部署时不会让工程师们感到困扰。因此,提出了三个高效且有效的模块:Multi-Scale Perception Neck(MPN)、Instance Interactive Attention(IIA)和Vector Direction Difference Loss(VDDL)。通过级联的探索实例间和实例内部的点序关系,我们的模型更好地监督了点序的预测过程。
我们在nuScenes和Argoverse2数据集中验证了ADMap的有效性。实验结果表明,ADMap在各项基准测试中均表现出最佳性能。在nuScenes基准中,ADMap在使用仅相机数据和多模态数据的情况下,mAP相比基准分别提高了4.2%和5.5%。ADMapv2不仅降低了推理延迟,还显著提升了基线性能,最高mAP达到了82.8%。在Argoverse数据集中,ADMapv2的mAP提高至62.9%,同时帧率保持在14.8FPS。
总结来说,我们提出的ADMap主要有以下几点贡献:
- 提出了端到端的ADMap,重建了更稳定的矢量化高精地图。
- MPN在不增加推理资源的情况下更好的捕捉了多尺度信息,IIA完成了实例间和实例内部的有效交互,使点级特征更准确,VDDL更细致的约束了点序重建过程,在点序的几何关系上进行监督。
- ADMap实现了矢量化高精地图的实时重建,并且在nuScenes基准和Argoverse2中达到了最高精度。
方法提出
如图1所示,实例中的预测点往往会不可避免的出现抖动或偏移现象,这种抖动会导致重建后的实例矢量变得不平滑或锯齿状,严重影响了在线高精地图的质量和实用性。我们认为,其原因在于现有模型并未充分考虑实例间和实例内部的交互方式,实例点与地图拓扑信息不完全的交互会导致其预测位置的不准。此外仅通过L1 loss和cosine embedding loss等监督无法有效的利用几何关系来约束实例点的预测过程,网络需要利用各点间的矢量线段来精细捕捉点序的方向信息以更准确的约束每个点的预测过程。

为了缓解以上问题,我们创新的提出了Anti-Disturbance Map reconstruction framework(ADMap),实现了矢量化高精地图的实时稳定重建。
方法设计
如图2所示,ADMap通过多尺度感知颈(Multi-Scale Perception Neck,MPN)、实例交互注意力(Instance Interactive Attention,IIA)和矢量方向差损失(Vector Direction Difference Loss,VDDL)来更精细地预测点序拓扑结构。下面将分别介绍MPN、IIA以及VDDL。

Multi-Scale Perception Neck
为了获得更详细的BEV特征,我们引入了Multi-Scale Perception Neck(MPN)。MPN接收融合后的BEV特征作为输入。通过下采样,每个层级的BEV特征将连接到一个上采样层,以恢复原始尺寸的特征图。最终,各层级的特征图将合并成多尺度的BEV特征。
如图2中的虚线代表该步骤仅在训练时实施,实线代表训练和推理过程都会实施该步骤。在训练过程中,多尺度BEV特征图和每一层级的BEV特征图都会被送入Transformer Decoder,这使网络可以在不同尺度预测场景的实例信息以捕捉更精细的多尺寸特征。而在推理过程中,MPN仅保留多尺度BEV特征,不会输出各层级特征图,这保证了该neck在推理时的资源占用不变。
Transformer Decoder
Transformer Decoder中定义了一组实例级别的查询和一组点级别的查询,随后将点级别查询共享到所有实例中,这些分层查询被定义为:

解码器包含几个级联的解码层,这些层迭代地更新分层查询。在各解码层中,分层查询被输入到自注意力机制中,这使得分层查询间可以相互交换信息,Deformable Attention被用来交互分层查询和多尺度BEV特征。
Instance Interactive Attention
为了在解码阶段更好的获取各实例特征,我们提出了Instance Interactive Attention(IIA),其由Instances self-attention和Points self-attention组成。不同于MapTRv2并行提取实例级和点级别的嵌入,IIA级联地提取了查询嵌入。实例嵌入间的特征交互进一步帮助了网络学习点级嵌入间的关系。

如图3所示,Deformable cross-attention输出的分层嵌入被输入到Instances self-attention。将点维度与通道维度合并后维度变换为。随后,分层嵌入接入由多个MLP组成的Embed Layer中获得实例查询,该查询被放入Multi-head self-attention中来捕捉实例间的拓扑关系,得到实例嵌入。为了在点级嵌入中融入实例级别信息,我们将实例嵌入和分层嵌入相加。相加后的特征被输入至Point self-attention中,对各实例内的点特征进行交互,进一步精细关联了点序间的拓扑关系。
Vector Direction Difference Loss
高精地图中包含了矢量化的静态地图元素,包括车道线、路沿和人行横道等。ADMap针对这些开放形状(车道线、路沿)和封闭形状(人行横道)提出了Vector Direction Difference Loss。我们建模了实例内部的点序矢量方向,通过预测矢量方向和真实矢量方向的差值可以更细致的监督点的方向。此外,真实矢量方向差较大的点被认为代表了部分场景拓扑的剧烈变化(更不容易预测),更加需要被模型关注。因此,真实矢量方向差较大的点被赋予了更大的权重,以保证网络可以准确预测到这个剧烈变化的点。

图4展示了预测点序{ 和真实点序{ 中对预测矢量线{ 和真实矢量线{ 的初始建模。为了保证相反的角度不会得到相同的损失,我们计算矢量线角度差余弦值θ':

其中函数累加了矢量线的坐标位置,代表归一化操作。我们利用真实实例中各点的矢量角度差来为它们赋予不同大小的权重。权重定义如下:

其中代表实例中点的数量,函数代表底数为e的指数函数。由于首尾两点无法计算矢量角度差,因此我们将首尾点的权重设置为1。当真实值中的矢量角度差变大时,我们赋予该点更大的权重,这使得网络更为关注显著变化的地图拓扑结构。点序中各点的角度差损失定义为:

我们使用θ将损失值的区间调整为[0.0, 2.0]。通过将各点的相邻矢量线角度差余弦相加,该损失更全面的涵盖了各点的几何拓扑信息。由于首尾两点仅有一根相邻矢量线,因此首尾两点的损失为单个矢量角度差的余弦值。
实验
为了公平的评估,我们将地图元素分为车道线、道路边界和人行横道三种。采用平均精度(AP)来评估地图构建的质量,使用预测点序和真实点序的chamfer距离之和来判断两者是否匹配。Chamfer距离阈值设置为[0.5, 1.0, 1.5],我们分别在这三种阈值下计算AP,并将平均值作为最终指标。
对比实验

表1报告了ADMap和最先进方法在nuScenes数据集的指标。在camera-only框架下,ADMap的mAP相较于baseline(MapTR)提高了5.5%,ADMapv2相较于baseline(MapTRv2)提高了1.4%。ADMapv2最高mAP达到82.8%,取得当前基准中最佳性能,部分细节会在后续arxiv版本中公布。在速度方面,ADMap相较于其baseline在FPS略微降低的情况下显著提高模型性能。值得一提的是,ADMapv2不仅提高了性能,在模型推理速度方面也有提升。

表2报告了ADMap和最先进方法在Argoverse2中的指标。在camera-only框架下,ADMap和ADMapv2相较于baseline分别提高了3.4%和1.3%。在多模态框架下,ADMap和ADMapv2达到了最佳性能,mAP分别为75.2%和76.9%。在速度方面。ADMapv2相较于MapTRv2提升了11.4ms。
消融实验
在表 3 中,我们提供了在 nuScenes 基准上ADMap各个模块的消融实验。

表4给出了插入不同注意力机制对于最终性能的影响。DSA表示decoupled self-attention,IIA表示实例交互注意力。结果表示IIA相较于DSA,mAP提高1.3%。

表5报告了在融合特征后增加backbone和neck层对mAP的影响。增加基于SECOND的backbone和neck层后,mAP提高了1.2%。而增加MPN后,在不增加推理时间的前提下,模型的mAP提高了2.0%。

表6报告了在nuScenes基准中增加VDDL对性能的影响。可以看到,当权重设置为1.0时,mAP最高,达到了53.3%。

表7报告了在nuScenes基准中,MPN下采样层数对最终性能的影响。下采样层数越多,模型推理速度越慢。因此,为了平衡速度和性能,我们设置了下采样层数为2。

为了验证ADMap有效缓解了点序扰动问题,我们提出了average chamfer distance(ACE)。我们挑选了chamfer distance之和小于1.5的预测实例,并计算它们的average chamfer distance(ACE)。当ACE越小代表实例点序预测的越准确。表8证明了ADMap可以有效缓解点云扰动这一问题。

可视化结果
下面两幅图为nuScenes数据集和Argoverse2数据集中的可视化结果。


总结
ADMap是一个高效且有效的矢量化高精地图重建框架,其有效缓解了实例矢量的点序由于预测偏差可能会出现的抖动或锯齿现象。大量实验表明,我们提出的方法在nuScenes和Argoverse2基准上均取得最佳性能。我们相信ADMap协助推进矢量高精地图重建任务的研究,从而更好地推动自动驾驶等领域的发展。
文中关于模型,高精地图的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《ADMap:抗干扰在线高精地图新思路》文章吧,也可关注golang学习网公众号了解相关技术文章。
Java函数与PHP语言函数的区别?
- 上一篇
- Java函数与PHP语言函数的区别?
- 下一篇
- Apple Watch十周年大动作:将引入革命性血压监测功能
-
- 科技周边 · 人工智能 | 2小时前 | 文本处理 编码转换 乱码 DeepSeekOCR 纯文本粘贴
- DeepSeekOCR乱码问题解决方法
- 119浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- Z-Image:阿里通义新推出的图像生成模型
- 303浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 豆包AI怎么切换语言多语言设置方法
- 500浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3190次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3402次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3433次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4540次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3811次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

