当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > SurroundOcc:环视三维占据栅格新SOTA!

SurroundOcc:环视三维占据栅格新SOTA!

来源:51CTO.COM 2023-09-12 18:44:51 0浏览 收藏

IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《SurroundOcc:环视三维占据栅格新SOTA!》,聊聊,我们一起来看看吧!

在这个工作中,我们通过多帧点云构建了稠密占据栅格数据集,并设计了基于transformer的2D-3D Unet结构的三维占据栅格网络。很荣幸地,我们的文章被ICCV 2023收录,目前项目代码已开源,欢迎大家试用。

SurroundOcc:环视三维占据栅格新SOTA!

arXiv:https://arxiv.org/pdf/2303.09551.pdf

代码:https://github.com/weiyithu/SurroundOcc

主页链接:https://weiyithu.github.io/SurroundOcc/

最近一直在疯狂找工作,没有闲下来写,正好最近提交了camera-ready,作为一个工作的收尾觉得还是写个知乎总结下。其实文章部分的介绍各个公众号写的已经很好了,也感谢他们的宣传,大家可以直接参考自动驾驶之心的自动驾驶之心:nuScenes SOTA!SurroundOcc:面向自动驾驶的纯视觉3D占据预测网络(清华&天大)。总的来说,contribution分为两块,一部分是如何利用多帧的lidar点云构建稠密occupancy数据集,另一部分是如何设计occupancy预测的网络。其实两部分的内容都比较直接易懂,大家有哪块不理解的也可以随时问我。那么这篇文章我想讲点论文之外的事情,一个是如何改进当前方案使其更加易于部署,另一个是未来的发展方向。

SurroundOcc:环视三维占据栅格新SOTA!

部署

SurroundOcc:环视三维占据栅格新SOTA!

一个网络是否易于部署,主要看其中有没有比较难在板端实现的算子,SurroundOcc这个方法里比较难搞的两个算子是transformer层以及3D卷积。

transformer的主要作用是将2D feature转换到3D空间,那么其实这部分也可以用LSS,Homography甚至mlp来实现,所以可以根据已实现的方案去修改这部分的网络。但据我所知,transformer的方案在几个方案里对calibration不敏感并且性能也比较好,建议有能力实现transformer部署的还是利用原有方案。

对于3D卷积来说,可以将其替换成2D卷积,这里需要将原来 (C, H, W, Z) 的3D feature reshape成(C* Z, H, W)的 2D feature,然后就可以用2D卷积进行特征提取了,在最后occupancy预测那步再把它reshape回(C, H, W, Z),并进行监督。另一方面,skip connection由于分辨率比较大所以比较吃显存,部署的时候可以去掉只留最小分辨率那一层。我们实验发现3D卷积中的这两个操作在nuscenes上都会有些许掉点,但业界数据集规模要远大于nuscenes,有时候有些结论也会改变,掉点应该会少甚至不掉。

SurroundOcc:环视三维占据栅格新SOTA!

在数据集构建方面,最耗时的一步是泊松重建。我们使用的是nuscenes数据集,其中采用了32线激光雷达进行采集。即使使用了多帧拼接技术,我们发现拼接后的点云仍然存在许多洞。因此,我们采用了泊松重建来填补这些洞。然而,目前业界使用的许多激光雷达点云都比较密集,例如M1、RS128等。因此,在这种情况下,可以省略泊松重建这一步,以加快数据集构建的速度

另一方面,SurroundOcc里是利用nuscenes中标注好的三维目标检测框将静态场景和动态物体分离的。但实际应用过程中,可以利用autolabel,也就是三维目标检测&跟踪大模型去得到每个物体在整个sequence中的检测框。相较于人工标注的label,利用大模型跑出来的结果肯定会存在一些误差,最直接的体现就是多帧的物体拼接后会有重影的现象。但其实occupancy对于物体形状的要求没有那么高,只要检测框位置比较准就能满足需求。

未来方向

当前方法还是比较依赖lidar提供occupancy的监督信号的,但很多车上,尤其是一些低阶辅助驾驶的车上没有lidar,这些车通过shadow模式可以传回来大量的RGB数据,那么一个未来方向是能不能只利用RGB进行自监督学习。一个自然的解决思路就是利用NeRF进行监督,具体来说,前面backbone部分不变,得到一个occupancy的预测,然后利用体素渲染得到每个相机视角下的RGB,和训练集中的真值RGB做loss形成监督信号。但很可惜的是这一套straightforward的方法我们试了试并不是很work,可能的原因是室外场景range太大,nerf可能hold不住,但也可能我们没有调好,大家也可以再试试。

另一个方向是时序&occupancy flow。其实occupancy flow对于下游任务的用处远比单帧occupancy大。ICCV的时候没来得及整occupancy flow的数据集,而且发paper的话还要对比很多flow的baseline,所以当时就没搞这块。时序网络可以参考BEVFormer和BEVDet4D的方案,比较简单有效。难的地方还是flow数据集这一部分,一般的物体可以用sequence的三维目标检测框算出来,但异型物体例如小动物塑料袋等,可能需要借助场景流的方法进行标注。

SurroundOcc:环视三维占据栅格新SOTA!

需要进行改写的内容是:原文链接:https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug

终于介绍完啦!小伙伴们,这篇关于《SurroundOcc:环视三维占据栅格新SOTA!》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
萌娘百科推出会员服务,承诺无广告、加速 AI 工具等特色功能萌娘百科推出会员服务,承诺无广告、加速 AI 工具等特色功能
上一篇
萌娘百科推出会员服务,承诺无广告、加速 AI 工具等特色功能
微软与 Project Gutenberg 合作,利用 AI 制作 5000 本免费有声书
下一篇
微软与 Project Gutenberg 合作,利用 AI 制作 5000 本免费有声书
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    13次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    14次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    27次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    26次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    53次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码