当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 解救不同环境 | HEAL:最新的协作感知框架

解救不同环境 | HEAL:最新的协作感知框架

来源:51CTO.COM 2024-02-26 23:48:19 0浏览 收藏

哈喽!今天心血来潮给大家带来了《解救不同环境 | HEAL:最新的协作感知框架》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!

协同感知技术在解决自动驾驶车辆感知问题方面具有重要意义。然而,现有研究往往忽视了智能体之间可能存在的异构性,即传感器和感知模型的多样性。实际应用中,智能体之间的模态和模型可能会存在显著的差异,这导致了域差异的出现,使得协同感知变得困难。因此,未来的研究需要考虑如何有效地处理智能体之间的异构性,以实现更加有效的协作感知。这将需要开发新的方法和算法,以适应不同智能体之间的差异性,并确保它们能够协同工作,实现更高效的自动驾驶系统。

为了解决这一实际挑战,ICLR 2024的最新研究文章 《An Extensible Framework for Open Heterogeneous Collaborative Perception》定义了开放异构协作感知问题(Open Heterogeneous Collaborative Perception):如何将不断出现的新异构智能体类型加入已有协作感知系统,同时确保高感知性能和低加入成本?来自上海交通大学、南加州大学和上海人工智能实验室的研究者们在本文中提出了HEAL(HEterogeneous ALliance):一种可扩展的异构智能体协作框架,有效解决了开放异构协作感知问题的两大痛点。

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

他们创建了一个包含多个协作感知数据集、多个协作感知算法以及支持多模态的代码框架,目前已完全开源。作者认为这是目前最完善的协作感知代码框架,有望帮助更多人轻松进入多模态、异构的协作感知研究领域。

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

  • 论文链接:https://arxiv.org/abs/2401.13964
  • 代码链接:https://github.com/yifanlu0227/HEAL

研究背景和意义

近年来,自动驾驶技术备受学术界和工业界关注。然而,实际道路条件复杂多变,而单一车辆的传感器可能会受到其他车辆的遮挡,给自动驾驶系统的感知能力带来挑战。为了解决这些问题,多智能体之间的协作感知成为一种解决方案。随着通信技术的进步,智能体之间可以共享感知信息,结合自身传感器数据和其他智能体的信息,从而提高对周围环境的感知能力。通过协作,每个智能体能够获取自身视野之外的信息,这有助于提升感知和决策能力。

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

图 1. 视线遮挡造成的“鬼探头”问题,单车感知受限

在当前研究领域中,大部分工作都基于一个可能过于简化的假设:所有智能体必须具有相同的结构;也就是说,它们的感知系统都使用相同的传感器,并且共享相同的检测模型。然而,在现实世界中,不同智能体的模式和模型可能是不同的,而且新的模式和模型可能会不断涌现。由于传感器技术和算法的快速发展,最初就确定所有协作智能体的种类(包括模式和模型)是不现实的。当一个从未出现在训练集中的异构智能体希望加入协作时,它必然会遇到与现有智能体之间的领域差异。这种差异会限制其与现有智能体进行特征融合的能力,从而显著限制了协作感知的可扩展性。

因此,开放异构协作感知问题随之而生:如何将不断出现的新智能体类型加入到现有的协作感知系统,同时确保高感知性能和低集成成本?

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

图 2. (a) 同构协作感知 (b) 异构协作感知 (c) 考虑新异构智能体加入的开放异构协作感知 (d) HEAL在使用最少训练成本的同时达到了最佳的协作感知性能

为了解决这个问题,一个可行的解决方案是后融合。通过融合每个智能体的感知输出(如3D包围框),后融合绕过了新智能体和现有智能体之间的异构性,且训练只需要发生在单智能体类别上。然而,后融合的性能并不理想,并被证明特别容易受到定位噪声和通信延迟等干扰因素等影响。另一种潜在的方法是完全集体培训,它汇总了协作中的所有智能体类型进行协作训练,以克服领域差异。然而,每次引入新的智能体类型时,这种方法都需要重新训练所有模型。随着新异构智能体的不断出现,训练的代价急剧上升。HEAL提出了一个全新的开放异构协作框架,同时具有完全集体训练的高性能和后融合的低训练成本。

问题定义

开放异构协作感知问题考虑如下场景:将具有先前未出现的模态或者模型的异构智能体类别加入到已有的协作系统中。不失一般性的,我们考虑场景初始由个同构的智能体组成,他们配备了相同类别的传感器、部署了相同的检测模型,并且都具有相互通信的能力。这些同构的智能体构成了一个已有的协作系统。随后,场景中从未出现过的模态或感知模型的异构智能体加入到协作系统当中。这种动态特性是在现实世界中部署协作感知的一个显著特征:智能体类别不会在开始时被完全确定,其类型数量可能会随着时间的推移而增加。它与先前的异构协作感知问题(其中异构的类别是提前确定好并固定的)也截然不同。

方法介绍

本文提出的开放异构协作感知框架HEAL(HEterogeneous ALliance),设计了两阶段的方法来将新的异构智能体加入到协作中,以实现不断增长的异构联盟:i)协作基类训练,令初始智能体训练一个特征融合协作网络并创建统一的特征空间;ii)新智能体训练,将新智能体的特征与之前建立的统一特征空间对齐,从而允许新智能体和已有智能体进行特征层面的协作。

对于每个新智能体类型加入协作,只需要第二阶段的训练。值得注意的是,第二阶段的训练可以由智能体所有者独立进行,不涉及与已有智能体的集体训练。这允许新智能体的加入有较低的训练成本,同时还能保护新智能体的模型细节不被暴露。

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

图 3. HEAL的整体框架

一阶段:协作基类训练

我们将场景中一开始存在的个同构智能体作为协作基类,并且训练一个基于特征融合的协作感知网络。我们提出一个新颖的金字塔融合网络来提取并融合多智能体的特征,具体在于:对于每个同构智能体的编码器编码出来的BEV特征,我们让他经过多层不同尺度的ResNeXt网络,以提取粗粒度和细粒度的特征信息。对于不同尺度的特征图,我们都对其应用前景预测器网络,估计BEV每个特征位置存在车辆等前景的概率。在协作者之间,前景的概率图会被归一化,作为将特征图逐像素加权融合的权重分布。获得不同尺度下的融合特征图以后,我们利用一系列上采样网络,将其转化到相同的特征图尺寸,并且得到最终融合的特征图。

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

图 4. 金字塔融合网络

融合后的特征图会经过一个检测头,转为最终的协作检测结果。协作检测结果和前景的概率图都受到ground-truth的监督。经过训练后,协作网络(金字塔融合网络)的参数保存了协作基类的相关特征信息,构建了一个共享的特征空间,用于后续新异构智能体的对齐。

二阶段:新智能体训练

我们考虑加入一种新的异构智能体类型。我们提出一种新颖的后向对齐方法。核心想法是利用上一阶段的金字塔融合网络和检测头作为新智能体的检测器后端,并仅更新前端编码器相关的参数。

值得注意的是,我们对新的异构类别的单个智能体进行单体训练,不涉及智能体之间的协作。因此,金字塔融合网络的输入是单张特征图,而不是一阶段中的多智能体特征图。随着预训练的金字塔融合模块和检测头被确立为后端和固定,训练过程演变为让前端编码器适应后端的参数,从而使新智能体编码的特征与统一特征空间保持一致。由于特征和已有智能体的特征对齐,他们能实现高性能的特征层面的协作。

后向对齐还显示了一个独特的优势:训练仅在新的单个智能体上进行。这大大降低了每次新智能体加入的训练成本和时空同步的数据采集成本。此外,它防止新代理的模型细节暴露给他人,并允许新智能体的所有者使用自己的传感器数据训练模型。这将显著解决汽车公司在部署车辆协作感知技术(V2V)时可能存在的许多顾虑。

实验结果

本文在OPV2V数据集的基础上,提出了一个更加数据异构的OPV2V-H数据集,补充了每辆车辆16线和32线的激光雷达数据,以及4个深度摄像头的数据。在OPV2V-H数据集和真实数据集DAIR-V2X上的实验结果表明,HEAL显著地降低了异构智能体加入协作的一系列训练成本(训练参数,FLOPs,训练时间等等),还保持了极高的协作检测性能。

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

图 5. HEAL同时拥有高性能和低训练成本

存在定位噪声和特征压缩的情况下,HEAL依然保持了最佳的检测性能,展示了在更加接近现实的设定下,HEAL是目前最有效的协作感知算法。

『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架

好了,本文到此结束,带大家了解了《解救不同环境 | HEAL:最新的协作感知框架》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
大括号在赋值语句中的作用是什么?大括号在赋值语句中的作用是什么?
上一篇
大括号在赋值语句中的作用是什么?
int 在C++和Go中有何不同
下一篇
int 在C++和Go中有何不同
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    23次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    23次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    25次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码