当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

来源:51CTO.COM 2024-05-24 11:12:25 0浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《PVTransformer: 可扩展3D检测的点到体素Transformer》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

原标题:PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection

论文链接:https://arxiv.org/pdf/2405.02811

作者单位:Waymo Research

PVTransformer: 可扩展3D检测的点到体素Transformer

论文思路:

本文介绍了一种基于Transformer的点到体素结构用于3D检测的方法。文章提出了PVTransformer,它使用注意力机制模块替换PointNet的池化操作,从而实现更好的点到体素聚合函数。本文的设计尊重3D点的置换不变性,同时比基于池化的PointNet更具表现力。实验证明,本文的PVTransformer在性能上比最新的3D目标检测器有显著提升。在广泛使用的Waymo Open Dataset上,本文的PVTransformer达到了76.5 mAPH L2的最新水平,超过了之前的SWFormer+1.7 mAPH L2。

主要贡献:

新架构:引入了一种基于注意力的点-体素架构,即PVTransformer,旨在解决PointNet的池化限制问题。

新颖的扩展研究:启动对基于Transformer的3D检测器架构可扩展性的探索。

广泛研究:通过广泛的架构搜索,本文展示了所提出的PVTransformer架构的有效性,其在Waymo Open Dataset上达到了76.5 mAPH L2的最新水平。

网络设计:

在城市环境中的自动驾驶3D目标检测需求处理大量稀疏且无序的点,这些点散布在开放的三维空间中。为了管理点的不规则分布,现有方法将点聚合成二维或三维元素表示 [35],利用PointNet类型的特征编码器 [20] 将点特征聚合到体素中,随后通过主干网络和检测头进行处理。然而,现有的点架构往往被忽视,并因其简约设计而受到限制,即少数几个全连接层后跟一个最大池化层。本文观察到,3D目标检测中的普通池化操作引入了信息损失。与图像识别中的标准2D最大池化不同,后者用于有限的像素集合,3D检测器中的点-体素池化层必须聚合大量无序点。这导致了在池化层之后点特征的显著信息损失。 另一方面,PointNet类型模块的关键在于最大池化层,在最大池化层中提取信息并作为聚合函数。尽管利用了众多全连接层进行特征提取,但体素内所有点的特征通常通过最大池化层进行聚合。例如,在Waymo Open Dataset [26] 中,常见一个0.32m × 0.32m的体素中有超过100个点,这些点被池化成一个单一的体素特征向量。这导致了在池化层之后点特征的显著信息损失,因为多个点特征被池化成一个体素特征向量。 为了改善这种情况,我们推出了一种新颖的点-体素池化层,该层能够聚合大量无序点。与普通的最大池化不同,我们的方法在点和体素之间建立了一种聚合机制,将点特征聚合到体素中,并随后通过主干网络和检测头进行处理。通过利用众多全连接层进行特征提取,我们的方法能够提取更丰富的特征信息,并作为聚合函数。同时,我们的方法在点特征的某个维度上增加了池化层,使每个点在池化层中被独立处理。这样可以有效避免点特征的显著信息损失,并提高3D目标检测器的性能。 综上所述,通过改进点-体素池化层,我们提出了一种新颖的方法来处理3D目标检测中的稀疏无序点。该方法能够利用多个全连接层对点特征进行特征提取,并将其聚合到体素中。通过引入独立的池化层处理每个点特征,我们能够有效避免信息损失,从而提高3D目标检测器的性能。

为了解决基于池化的PointNet架构的局限性,本文引入了PVTransformer,这是一种基于Transformer [29] 的新型注意力点-体素结构,用于3D目标检测。PVTransformer的目标是通过注意力模块端到端学习点云中由于池化操作引入的信息瓶颈。在PVTransformer中,每个体素中的每个点被视为一个token,并使用单个查询向量来查询所有点tokens,从而聚合并编码体素内所有点的特征到单个的体素特征向量中。PVTransformer中的基于注意力的聚合模块作为一个集合操作符(set operator)保持了排列不变性,但比最大池化更具表现力。值得注意的是,与其他基于Transformer的点网络如Point Transformer [32] 使用池化来聚合不同,PVTransformer旨在学习特征聚合函数,而无需依赖启发式的池化操作。

本文在Waymo Open Dataset上评估了PVTransformer,这是目前最大的公开3D点云数据集 [26]。实验结果表明,PVTransformer通过改进点到体素的聚合,显著优于之前基于PointNet的3D目标检测器。此外,PVTransformer使本文能够扩展模型,实现了新的最先进水平:在车辆和行人检测中分别达到了76.1 mAPH L2和85.0/84.7 AP L1。值得注意的是,本文的体素主干网络和损失设计主要基于先前的SWFormer [27],但本文新提出的点到体素Transformer相比基线SWFormer提高了+1.7 mAPH L2。

PVTransformer: 可扩展3D检测的点到体素Transformer

图1:PVTransformer(PVT)作为一种可扩展的架构。PVTransformer解决了之前基于体素的3D检测器中的池化瓶颈,并展示了相较于扩展PointNet(Scale Point)和体素架构(Scale Voxel)更好的可扩展性。每个点的大小表示模型的Flops。更多细节请参见图4和图5。

PVTransformer: 可扩展3D检测的点到体素Transformer

图2:PVTransformer架构概述。PVTransformer架构包含点架构和体素架构。其创新之处在于点架构,用一种新颖的Transformer设计替代了PointNet。在点架构中,点被分组到pillars内,每个pillars被视为一个token。在一个体素内,点首先经过自注意力Transformer,然后通过交叉注意力Transformer将点特征聚合为体素特征,详细信息见图3(b)。稀疏的BEV体素特征随后进入体素架构,采用多尺度稀疏窗口Transformer(SWFormer Block)[27]进行编码,并使用CenterNet头进行边界框预测[31]。

PVTransformer: 可扩展3D检测的点到体素Transformer

图3:PVTransformer中的点到体素聚合。该模块使用Transformer层替代了PointNet的最大池化[20]。

PVTransformer: 可扩展3D检测的点到体素Transformer

图4:PVTransformer:更好的可扩展性。增加PointNet(PN)的深度(红色,紫色)和通道(黄色)仅带来适度的性能提升,而扩展PVTransformer PVT(绿色)则显示出显著的性能提升。之前的工作中,无论是单尺度(SS)[4]还是多尺度(MS)[27]架构,都使用PointNet进行点特征聚合,但在超过某些阈值时性能不佳,导致过拟合。PVTransformer(绿色)通过引入基于Transformer的点到体素编码器,克服了这些限制,使其能够有效扩展超过 300 GFlops,并在Waymo Open Dataset验证集上实现了车辆和行人检测的74.0 mAPH L2。

PVTransformer: 可扩展3D检测的点到体素Transformer

图5:当使用PointNet(PN)来聚合点特征时,体素架构的可扩展性有限。右图:使用Transformer来聚合点特征(PVT L)(绿色)显著优于使用PointNet并仅在体素架构中将通道扩展到256(蓝色),在相似的Flops下提高了3.5 mAPH L2。左图:从搜索空间(见表V)中随机采样的体素架构在训练12.8个epoch后的性能表现。本文观察到,使用PointNet扩展体素架构可能导致次优性能。帕累托曲线(红色曲线)显示,将体素架构的通道数从128扩展到192和256会导致过拟合。在Waymo Open Dataset验证集上报告了车辆和行人的mAPH L2。

实验结果:

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

PVTransformer: 可扩展3D检测的点到体素Transformer

总结:

本文旨在为大规模3D目标检测器实现更好的可扩展性,并发现基于池化的PointNet为现代3D目标检测器引入了信息瓶颈。为了解决这一限制,本文提出了一个新的PVTransformer架构,该架构使用基于注意力机制的Transformer将点特征聚合到体素特征中。本文证明了这种点到体素的Transformer比简单的PointNet池化层更具表现力,因此在性能上远远超过了以往的3D目标检测器。本文的PVTransformer显著优于之前的技术,如SWFormer,并在具有挑战性的Waymo Open Dataset上实现了新的最先进的结果。

好了,本文到此结束,带大家了解了《PVTransformer: 可扩展3D检测的点到体素Transformer》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
新兴 Java 框架在微服务架构中的应用趋势?新兴 Java 框架在微服务架构中的应用趋势?
上一篇
新兴 Java 框架在微服务架构中的应用趋势?
OpenAI、微软、智谱AI等全球16家公司共同签署前沿人工智能安全承诺
下一篇
OpenAI、微软、智谱AI等全球16家公司共同签署前沿人工智能安全承诺
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码