ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%
在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!
对于自动驾驶中的许多任务来说,从自上而下、地图或鸟瞰 (BEV) 几个角度去看会更容易完成。由于许多自动驾驶主题被限制在地平面,所以俯视图是一种更实用的低维表征,对于导航也更加理想,能够捕获相关障碍和危险。对于像自主驾驶这样的场景,语义分割的 BEV 地图必须作为瞬时估计生成,以处理自由移动的对象和只访问一次的场景。
要想从图像推断 BEV 地图,就需要确定图像元素与它们在环境中的位置之间的对应关系。此前的一些研究以稠密深度图和图像分割地图指导这种转换过程,还有研究延展了隐式解析深度和语义的方法。一些研究则利用了相机的几何先验,但并没有明确地学习图像元素和 BEV 平面之间的相互作用。
在近期一篇论文中,来自萨里大学的研究者引入了注意力机制,将自动驾驶的 2D 图像转换为鸟瞰图,使得模型的识别准确率提升了 15%。这项研究在不久前落幕的 ICRA 2022 会议上获得了杰出论文奖。
论文链接:https://arxiv.org/pdf/2110.00966.pdf
与以往的方法不同,这项研究将 BEV 的转换视为一个「Image-to-World」的转换问题,其目标是学习图像中的垂直扫描线(vertical scan lines)和 BEV 中的极射线(polar ray)之间的对齐。因此,这种射影几何对网络来说是隐式的。
在对齐模型上,研究者采用了 Transformer 这种基于注意力的序列预测结构。利用其注意力机制,研究者明确地建模了图像中垂直扫描线与其极性 BEV 投影之间的成对相互作用。Transformer 非常适合图像到 BEV 的转换问题,因为它们可以推理出物体、深度和场景照明之间的相互依赖关系,以实现全局一致的表征。
研究者将基于 Transformer 的对齐模型嵌入到一个端到端学习公式中,该公式以单目图像及其固有矩阵为输入,然后预测静态和动态类的语义 BEV 映射。
本文构建了一个体系结构,有助于从对齐模型周围的单目图像预测语义 BEV 映射。如下图 1 所示,它包含三个主要组成部分:一个标准的 CNN 骨干,用于提取图像平面上的空间特征;编码器 - 解码器 Transformer 将图像平面上的特征转换为 BEV;最后一个分割网络将 BEV 特征解码为语义地图。
具体而言,这项研究的主要贡献在于:
- (1)用一组 1D 序列 - 序列的转换从一幅图像中生成一个 BEV 图;
- (2)构建了一个受限制的数据高效的 Transformer 网络,具备空间感知能力;
- (3)公式和语言领域单调注意力的结合表明,对于精确的映射来说,知道图像中一个点下面是什么比知道它上面是什么更重要,尽管两者都使用会导致最佳性能;
- (4)展示了轴向注意力如何通过提供时间意识来提高性能,并在三个大规模数据集上展示了最新的结果。
实验结果
在实验中,研究者做了几项评估:将图像到 BEV 的转换作为 nuScenes 数据集上的转换问题评估其效用;在单调注意力中消融回溯方向,评估长序列水平上下文的效用和极位置信息(polar positional information)的影响。最后,将该方法与 nuScenes 、Argoverse 和 Lyft 数据集的 SOTA 方法进行比较。
消融实验
如下表 2 的第一部分所示,研究者比较了软注意力 (looking both ways)、图像底部回溯(looking down) 的单调注意力、图像顶部回溯 (looking up) 的单调注意力。结果表明,从图像中的一个点向下看比向上看要好。
沿着局部的纹理线索——这与人类在城市环境中试图确定物体距离的方法是一致的,我们会利用物体与地平面相交的位置。结果还表明,两个方向的观察都进一步提高了精度,使深度推理更具有识别力。
长序列水平上下文的效用。此处的图像 - BEV 转换是作为一组 1D 序列 - 序列转换进行的,因此一个问题是,当整个图像被转换成 BEV 时会发生什么。考虑到生成注意力地图所需的二次计算时间和记忆力,这种方法的成本高得令人望而却步。然而,可以通过在图像平面特征上应用水平轴向注意力,取得近似使用整个图像的上下文效益。借助通过图像行的轴向注意力,垂直扫描线中的像素现在具备了长距离的水平上下文,之后像以前一样,通过在 1D 序列之间转换来提供长距离的垂直上下文。
如表 2 中间部分所示,合并长序列水平上下文并不会使模型受益,甚至略有不利影响。这说明了两点:首先,每个转换后的射线并不需要输入图像整个宽度的信息,或者更确切地说,比起已经通过前端卷积聚合的上下文,长序列上下文并没有提供任何额外的好处。这表明,使用整个图像执行转换,不会让模型精度提高以至超过 baseline 约束公式;此外,引入水平轴向注意力导致的性能下降意味着使用注意力训练图像宽度的序列的困难,可以看出,使用整个图像作为输入序列的话,会更难训练。
Polar-agnostic vs polar-adaptive Transformers:表 2 最后一部分比较了 Po-Ag 与 Po-Ad 的变体。一个 Po-Ag 模型没有极化位置信息,图像平面的 Po-Ad 包括添加到 Transformer 编码器中的 polar encodings,而对于 BEV 平面,这些信息会加入到解码器中。在任何一个平面上添加 polar encodings 都比在不可知模型上添加更有益处,其中动态类的增加最多。将它添加到两个平面会进一步强化这一点,但对静态类的影响最大。
和 SOTA 方法的对比
研究者将本文方法与一些 SOTA 方法进行了比较。如下表 1 所示,空间模型的表现优于目前压缩的 SOTA 方法 STA-S ,平均相对改善 15% 。在更小的动态类上,改善更加显著,公共汽车、卡车、拖车和障碍物的检测准确度都增加了相对 35-45% 。
下图 2 中得到的定性结果也支持了这一结论,本文模型显示出更大的结构相似性和更好的形状感。这种差异可以部分归因于用于压缩的全连接层(FCL) : 当检测小而遥远的物体时,图像的大部分是冗余的上下文。
此外,行人等物体往往部分被车辆挡住。在这种情况下,全连接层将倾向于忽略行人,而是保持车辆的语义。在这里,注意力方法展示出了它的优势,因为每个径向深度都可以独立地注意到图像ーー如此,更深的深度可以使行人的身体可见,而此前的深度只可以注意到车辆。
下表 3 中 Argoverse 数据集上的结果展示了类似的模式,其中本文方法对比 PON [8]提高了 30% 。
如下表 4 所示,本文方法在 nuScenes 和 Lyft 上的表现优于 LSS [9]和 FIERY [20]。在 Lyft 上进行真正的对比是不可能的,因为它没有规范的 train/val 分割,而且无法获得 LSS 所使用的分割。
更多研究细节,可参考原论文。
今天关于《ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- 人工智能在制造业成功应用的四个步骤

- 下一篇
- 个性化与智慧城市的未来
-
- 科技周边 · 人工智能 | 1分钟前 |
- PerplexityAI解析天文数据,生成宇宙观测报告
- 360浏览 收藏
-
- 科技周边 · 人工智能 | 6分钟前 |
- 小米YU7交付周期延长至56周
- 411浏览 收藏
-
- 科技周边 · 人工智能 | 10分钟前 |
- 豆包AI支持生成思维导图吗?
- 232浏览 收藏
-
- 科技周边 · 人工智能 | 12分钟前 | 宁德时代
- 宁德时代新电池专利技术发布
- 101浏览 收藏
-
- 科技周边 · 人工智能 | 12分钟前 | Effidit 办公写作
- Effidit+微信钉钉,高效写作新方式
- 479浏览 收藏
-
- 科技周边 · 人工智能 | 18分钟前 |
- 豆包AI聊天记录会保存吗?隐私政策全解析
- 501浏览 收藏
-
- 科技周边 · 人工智能 | 21分钟前 | ChatGPT API文档
- ChatGPT生成API文档技巧分享
- 311浏览 收藏
-
- 科技周边 · 人工智能 | 23分钟前 |
- 多模态AI医疗应用案例解析
- 468浏览 收藏
-
- 科技周边 · 人工智能 | 24分钟前 | OLED LG显示
- LG显示7000亿韩元建新OLED产线
- 131浏览 收藏
-
- 科技周边 · 人工智能 | 29分钟前 |
- 多模态AI解析射电望远镜数据
- 300浏览 收藏
-
- 科技周边 · 人工智能 | 33分钟前 | 台积电
- 绿电供应商爆雷,台积进度不受影响
- 201浏览 收藏
-
- 科技周边 · 人工智能 | 40分钟前 |
- AI证件照肤色调整技巧大全
- 114浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 10次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 156次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 186次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 173次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 161次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览