SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准
学习科技周边要努力,但是不要急!今天的这篇文章《SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准》将会介绍到等等知识点,如果你想深入学习科技周边,可以关注我!我会持续更新相关文章的,希望对大家都能有所帮助!
原标题:SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving
论文链接:https://arxiv.org/pdf/2402.02519.pdf
代码链接:https://github.com/HKUST-Aerial-Robotics/SIMPL
作者单位:香港科技大学 大疆
论文思路:
本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线(SIMPL)。与传统的以代理为中心(agent-centric) 的方法(精度高但需要重复计算)和以场景为中心(scene-centric) 的方法(精度和通用性受到影响)不同,SIMPL 可以为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度,本文提出了一种紧凑而高效的全局特征融合模块,该模块以对称方式执行定向消息传递,使网络能够在单次前馈传递中预测所有道路使用者的未来运动,并减轻视点移动导致的精度损失。此外,本文研究了在轨迹解码中使用 Bernstein basis polynomials 进行连续轨迹参数化,允许在任何所需时间点评估状态及其高阶导数,这对于下游规划任务很有价值。作为强大的基线,与其他最先进的方法相比,SIMPL 在 Argoverse 1 和 2 运动预测基准上表现出极具竞争力的性能。此外,其轻量级设计和低推理延迟使 SIMPL 具有高度可扩展性,并有望用于现实世界的机载部署。
网络设计:
预测周围交通参与者的运动对自动驾驶汽车至关重要,尤其是在下游决策和规划模块中。准确预测意图和轨迹将提高安全性和乘坐舒适性。
对于基于学习的运动预测,最重要的主题之一是上下文表示。早期的方法通常将周围场景表示为多通道鸟瞰图像 [1]–[4]。相比之下,最近的研究越来越多地采用矢量化场景表示[5]-[13],其中使用带有地理坐标的点集或多段线(polylines) 来标注位置和几何形状,从而提高保真度并扩大感受野。然而,对于光栅化和矢量化表示,都存在一个关键问题:我们应该如何为所有这些元素选择合适的参考系?一种直接的方法是描述共享坐标系(以场景为中心)内的所有实例,例如以自动驾驶车辆为中心的坐标系,并直接使用坐标作为输入特征。这使我们能够在一次前馈传递中对多个目标代理进行预测 [8, 14]。然而,使用全局坐标作为输入,通常会在单个前馈传递中对多个目标代理进行预测 [8, 14]。然而,使用全局坐标作为输入(通常会在很大范围内变化)将大大加剧任务的固有复杂性,导致网络性能下降和对新场景的适应性有限。为了提高准确性和鲁棒性,一种常见的解决方案是根据目标代理的当前状态对场景上下文进行归一化处理 [5, 7, 10]-[13](以代理为中心)。这意味着必须对每个目标代理重复执行归一化过程和特征编码,从而获得更好的性能,但代价是冗余计算。因此,有必要探索一种能够有效地编码多个目标的特征,同时保持对视角(perspective) 变化的鲁棒性的方法。
对于运动预测的下游模块,例如决策和运动规划,不仅需要考虑未来位置,还需要考虑航向、速度和其他高阶导数。例如,周围车辆的预测航向在塑造未来时空占用方面发挥着关键作用,这是确保安全和稳健的运动规划的关键因素[15, 16]。此外,在不遵守物理约束的情况下独立预测高阶量可能会导致预测结果不一致[17, 18]。例如,尽管速度为零,但它可能会产生位置位移,从而导致规划模块混乱。
本文介绍了一种名为SIMPL(简单高效的运动预测基线)的方法,用于解决自动驾驶系统中多智能体轨迹预测的关键问题。该方法首先采用以实例为中心的场景表示,然后引入了symmetric fusion Transformer(SFT)技术,能够在单次前馈传递中有效地预测所有代理的轨迹,同时保持视角不变性的准确性和鲁棒性。与其他基于对称上下文融合的方法相比,SFT更简单、更轻量级且更易实现,适合在车载环境中部署使用。
其次,本文引入了一种基于 Bernstein basis polynomial(也称为 Bezier curve)的预测轨迹的新颖参数化方法。这种连续表示确保了平滑性,并能够在任何给定时间点轻松评估精确状态及其高阶导数。本文的实证研究表明,与估计 monomial basis polynomials 的系数相比,学习预测 Bezier curves 的控制点更加有效且数值稳定。
最后,所提出的组件被很好地集成到一个简单而高效的模型中。本文在两个大型运动预测数据集上评估了所提出的方法[22, 23],实验结果表明,尽管 SIMPL 具有简化的设计,但与其他最先进的方法相比仍具有很强的竞争力。更重要的是,SIMPL通过较少的可学习参数和较低的推理延迟实现了高效的多智能体轨迹预测,而没有牺牲量化性能,这对于真实世界的机载部署来说是充满希望的。本文还强调,作为一个强大的基线,SIMPL 具有出色的可扩展性。简洁的架构便于与最新的运动预测进展直接整合,为进一步提高整体性能提供了机会。
图 1:复杂驾驶场景中多智能体运动预测的图示。本文的方法能够实时地同时为所有相关代理生成合理的假设。自车和其他车辆分别以红色和蓝色显示。根据时间戳使用渐变颜色来可视化预测轨迹。请参考附带的视频了解更多示例。
图 2:SIMPL 示意图。本文利用尽可能简单的网络架构来证明其有效性。语义实例的局部特征由简单的编码器处理,而实例间特征则保留在相对位置嵌入中。多模态轨迹预测结果由运动解码器在提出的 symmetric feature Transformer 之后生成。
图 3:相对位姿计算示意图。
图 4:所提出的 L 层 symmetric fusion Transformer (SFT) 的图示。实例 tokens 和相对位置嵌入(RPE)在每个SFT层中都会循环更新。
图 5:2D septic Bezier curve(左)。
实验结果:
总结:
本文提出了一种简单高效的自动驾驶多智能体运动预测基线。利用所提出的 symmetric fusion Transformer,所提出的方法实现了高效的全局特征融合,并保持了针对视点移动的鲁棒性。基于 Bernstein basis polynomials 的连续轨迹参数化提供了与下游模块更高的兼容性。在大规模公共数据集上的实验结果表明,SIMPL 在模型大小和推理速度方面更具优势,同时获得与其他最先进方法相同水平的精度。
引用:
Zhang L, Li P, Liu S, et al. SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving[J]. arXiv preprint arXiv:2402.02519, 2024.
到这里,我们也就讲完了《SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于自动驾驶,预测的知识点!

- 上一篇
- 为什么在 Go 条件模板中使用破折号

- 下一篇
- 华为领跑 2023 年国际专利体系申请量,连续 7 年蝉联第一
-
- 科技周边 · 人工智能 | 17分钟前 |
- Muyan-TTS:零样本开源语音合成技术
- 193浏览 收藏
-
- 科技周边 · 人工智能 | 49分钟前 |
- 宾夕法尼亚大学新工具ConceptLancet震撼发布
- 383浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 2025年KPI仅三家达标,造车新势力最新数据
- 229浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 光线追踪 UDNA架构 BVH管理 路径跟踪 索尼PlayStation
- AMD新专利提升UDNA,光追性能大幅增强
- 248浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- StabilityAI与Arm联手,推出StableAudioOpenSmall文本到音频模型
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 即梦AI水印设置教程详解添加方法
- 412浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 用豆包A/生成的表情包如何赚钱
- 369浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- 理想L系列智能焕新版5月8日发布L7/8/9齐上新
- 368浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- DeepSeek+Triop:AI手绘到3D建模全程解析
- 136浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 19次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 34次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 35次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 42次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 44次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览