当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 综述!全面概括基础模型对于推动自动驾驶的重要作用

综述!全面概括基础模型对于推动自动驾驶的重要作用

来源:51CTO.COM 2024-05-23 17:30:11 0浏览 收藏

大家好,今天本人给大家带来文章《综述!全面概括基础模型对于推动自动驾驶的重要作用》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!

写在前面&笔者的个人理解

最近来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。

  • 通过对丰富的语言和视觉数据进行预训练,基础模型可以理解和解释自动驾驶场景中的各类元素并进行推理,为驾驶决策和规划提供语言和动作命令。
  • 基础模型可以根据对驾驶场景的理解来实现数据增强,用于提供在常规驾驶和数据收集期间不太可能遇到的长尾分布中那些罕见的可行场景以实现提高自动驾驶系统准确性和可靠性的目的。
  • 对基础模型应用的另外一个场景是在于世界模型,该模型展示了理解物理定律和动态事物的能力。通过采用自监督的学习范式对海量数据进行学习,世界模型可以生成不可见但是可信的驾驶场景,促进对于动态物体行为预测的增强以及驾驶策略的离线训练过程。

本文主要概述了基础模型在自动驾驶领域中的应用,并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。 在自动驾驶模型方面,基础模型可以用于实现各种自动驾驶功能,例如车辆的感知、决策和控制等。通过基础模型,车辆可以获取周围环境的信息,并做出相应的决策和控制动作。 在数据增强方面,基础模型可以用于增强数据

本文链接:https://arxiv.org/pdf/2405.02288

自动驾驶模型

基于语言和视觉基础模型的类人驾驶

在自动驾驶中,语言和视觉的基础模型显示出了巨大的应用潜力,通过增强自动驾驶模型在驾驶场景中的理解和推理,实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。

综述!全面概括基础模型对于推动自动驾驶的重要作用

基础模型对于自动驾驶模型增强范式

目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解,再获取对于当前环境的整体感知理解后,基础模型就会给出一系列的语言命令,如:“前方有红灯,减速慢行”,“前方有十字路口,注意行人”等相关语言指令,便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。

近年来,学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中。以语言命令的形式提高自动驾驶的性能,以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端,它最终需要落在规划或控制指令上,基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索,但仍有很多发展空间。更重要的是,一些学者通过类似GPT的方法探索了自动驾驶模型的构建,该方法直接输出基于大规模语言模型的轨迹,然后通过控制命令实现,相关工作已经汇总在如下表格中。

综述!全面概括基础模型对于推动自动驾驶的重要作用

使用预训练主干网络进行端到端自动驾驶

上述的相关内容其核心思路是提高自动驾驶决策的可解释性,增强场景理解解析,指导自动驾驶系统的规划或控制。在过去的一段时间内,有许多工作一直以各种方式优化预训练模型主干网络,并且取得了非常不错的成果。因此,为了更加全面的总结基础模型在自动驾驶中的应用,我们对预训练主干网络以及取得了非常不错的成果的研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。

综述!全面概括基础模型对于推动自动驾驶的重要作用

基于预训练主干网络的端到端自动驾驶系统的流程图

在端到端自动驾驶的整体流程中,从原始数据中提取低级信息在一定程度上决定了后续模型性能的潜力,优秀的预训练骨干可以使模型具有更强的特征学习能力。ResNet和VGG等预训练卷积网络是端到端模型视觉特征提取应用最广泛的主干网络。这些预训练网络通常利用目标检测或分割作为提取广义特征的任务进行训练,并且他们所取得的性能已经在很多工作中得到了验证。

此外,早期的端到端自动驾驶模型主要是基于各种类型的卷积神经网络,通过模仿学习或者强化学习的方式来完成。最近的一些工作试图建立一个具有Transformer网络结构的端到端自动驾驶系统,并且同样取得了比较不错的成绩,比如Transfuser、FusionAD、UniAD等工作。

数据增强

随着深度学习技术的进一步发展,底层网络架构的进一步完善和升级,具有预训练和微调的基础模型已经展现出了越来越强大的性能。由GPT代表的基础模型已经使得大模型从学习范式的规则向数据驱动的方式进行转换。数据作为模型学习关键环节的重要性是无可替代的。在自动驾驶模型的训练和测试过程中,大量的场景数据被用来使模型能够对各种道路和交通场景具有良好的理解和决策能力。自动驾驶面临的长尾问题也是这样一种事实,即存在无穷无尽的未知边缘场景,使模型的泛化能力似乎永远不足,导致性能较差。

数据增强对于提高自动驾驶模型的泛化能力至关重要。数据增强的实现需要考虑两个方面

  • 一方面:如何获取大规模的数据,使提供给自动驾驶模型的数据具有足够的多样性和广泛性
  • 另一方面:如何获取尽可能多的高质量数据,使用于训练和测试自动驾驶模型的数据准确可靠

所以,相关的研究工作主要从以上两个方面开展相关的技术研究,一是丰富现有的数据集中的数据内容,增强驾驶场景中的数据特征。二是通过模拟的方式生成多层次的驾驶场景。

扩展自动驾驶数据集

现有的自动驾驶数据集主要是通过记录传感器数据然后标记数据来获得的。通过这种方式获得的数据特征通常是很低级的,同时数据集的量级也是比较差,这对于自动驾驶场景的视觉特征空间是完全不够的。语言模型表示的基础模型在高级语义理解、推理和解释能力为自动驾驶数据集的丰富和扩展提供了新的思路和技术途径。通过利用基础模型的高级理解、推理和解释能力来扩展数据集可以帮助更好地评估自动驾驶系统的可解释性和控制,从而提高自动驾驶系统的安全性和可靠性。

生成驾驶场景

驾驶场景对自动驾驶来说具有重要的意义。为了获得不同的驾驶场景数据,仅依赖采集车辆的传感器进行实时采集需要消耗巨大的成本,很难为一些边缘场景获得足够的场景数据。通过仿真生成逼真的驾驶场景引起了许多研究者的关注,交通仿真研究主要分为基于规则和数据驱动两大类。

  • 基于规则的方法:使用预定义的规则,这些规则通常不足以描述复杂的驾驶场景,并且模拟的驾驶场景更简单、更通用
  • 基于数据驱动的方法:使用驾驶数据来训练模型,模型可以从中持续学习和适应。然而,数据驱动的方法通常需要大量的标记数据进行训练,这阻碍了流量模拟的进一步发展

随着技术的发展,目前数据的生成方式已经逐渐由规则的方式转换为数据驱动的方式。通过高效、准确地模拟驾驶场景,包括各种复杂和危险的情况,为模型学习提供了大量的训练数据,可以有效提高自动驾驶系统的泛化能力。同时,生成的驾驶场景也可用于评估不同的自动驾驶系统和算法来测试和验证系统性能。下表是不同数据增强策略的总结。

综述!全面概括基础模型对于推动自动驾驶的重要作用

不同数据增强策略总结

世界模型

世界模型被认为是为一种人工智能模型,它包含了它运行的环境的整体理解或表示。该模型能够模拟环境做出预测或决策。在最近的文献中,强化学习的背景下提到了术语”世界模型”。这个概念在自动驾驶应用中也得到了关注,因为它能够理解和阐明驾驶环境的动态特性。世界模型与强化学习、模仿学习和深度生成模型高度相关。然而,在强化学习和模仿学习中利用世界模型通常需要标注好的数据,并且SEM2以及MILE等方法都是在监督范式中进行的。同时,也有尝试根据标记的数据的局限性将强化学习和无监督学习结合起来。由于与自监督学习密切相关,深度生成模型变得越来越流行,目前已经提出了很多工作。下图展示出来了使用世界模型增强自动驾驶模型的整体流程图。

综述!全面概括基础模型对于推动自动驾驶的重要作用

世界模型进行自动驾驶模型增强的整体流程图

深度生成模型

深度生成模型通常包括变分自动编码器、生成对抗网络、流模型以及自回归模型。

  • 变分自动编码器结合了自动编码器和概率图形模型的思想来学习数据的底层结构并生成新样本
  • 生成对抗网络由两个神经网络、生成器和鉴别器组成,它们利用对抗训练相互竞争和增强,最终实现生成真实样本的目标
  • 流模型通过一系列可逆变换将简单的先验分布转换为复杂的后验分布来生成相似的数据样本
  • 自回归模型是一类序列分析方法,基于序列数据之间的自相关,描述当前观测值与过去观测值之间的关系,模型参数的估计通常是利用最小二乘法和最大似然估计来完成的。扩散模型是一种典型的自回归模型,它从纯噪声数据中学习逐步去噪的过程。由于其强大的生成性能,扩散模型是当前深度生成模型中的新SOTA模型

生成式方法

基于深度生成模型的强大能力,利用深度生成模型作为世界模型学习驾驶场景以增强自动驾驶已经逐渐成为研究热点。接下来我们将回顾利用深度生成模型作为自动驾驶中的世界模型的应用。视觉是人类获取有关世界信息的最直接有效的方法之一,因为图像数据中包含的特征信息极其丰富。许多以前的工作通过世界模型完成了图像生成的任务,表明世界模型对图像数据具有良好的理解和推理能力。目前整体来看,研究者们希望可以从图像数据中学习世界的内在进化规律,然后预测未来的状态。结合自监督学习,世界模型用于从图像数据中学习,充分释放模型的推理能力,为视觉域构建广义基础模型提供了一种可行的方向。下图展示了一些利用世界模型的相关工作内容汇总。

综述!全面概括基础模型对于推动自动驾驶的重要作用

使用世界模型进行预测的工作汇总

非生成式方法

与生成世界模型相比,LeCun通过提出联合提取和预测架构 (JEPA) 详细阐述了他对世界模型的不同概念。这是一个非生成和自监督的架构,因为它不直接根据输入数据来预测输出结果,而是将输入数据编码在一种抽象空间中进行编码完成最终的预测。这种预测方式的优点是它不需要预测关于输出结果的所有信息,并且可以消除不相关的细节信息。

JEPA是一种基于能量模型的自监督学习架构,它观察和学习世界如何工作和高度概括的规律。JEPA在自动驾驶中也有很大的潜力,有望通过学习驾驶是如何工作的来生成高质量的驾驶场景和驾驶策略。

结论

本文全面概述了基础模型在自动驾驶应用中的重要作用。从本文调研的相关研究工作的总结和发现来看,另一个值得进一步探索的方向是如何为自监督学习设计一个有效的网络架构。自监督学习可以有效地突破数据标注的局限性,允许模型大规模的对数据进行学习,充分释放模型的推理能力。如果自动驾驶的基础模型可以在自监督学习范式下使用不同规模的驾驶场景数据进行训练,则预计其泛化能力将大大提高。这种进步可能会实现更通用的基础模型。

总之,虽然在将基础模型应用于自动驾驶方面存在许多挑战,但其具有非常广阔的应用空间和发展前景。未来,我们将继续观察应用于自动驾驶的基础模型的相关进展。

文中关于自动驾驶,模型,架构的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《综述!全面概括基础模型对于推动自动驾驶的重要作用》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
上一篇
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
PHP框架选择:考虑关键因素和最佳实践
下一篇
PHP框架选择:考虑关键因素和最佳实践
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 可图AI 2.0:快手旗下新一代图像生成大模型,专业创作者与普通用户的多模态创作引擎
    可图AI 2.0图片生成
    可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
    3次使用
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    24次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    33次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    31次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    35次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码