当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

来源:51CTO.COM 2024-04-28 23:06:11 0浏览 收藏

大家好,今天本人给大家带来文章《效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!

标注之殇

静态物体检测(SOD),包括交通信号灯、导向牌和交通锥,大多数算法是数据驱动深度神经网络,需要大量的训练数据。现在的做法通常是对大量的训练样本在 LiDAR 扫描的点云数据上进行手动标注,以修复长尾案例。

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

手动标注难以捕捉真实场景的变异性和复杂性,通常无法考虑遮挡、不同的光照条件和多样的视角(如图1中的黄色箭头)。整个过程链路长、极其耗时、容易出错、成本颇高(如图2)。所以目前公司都寻求自动标注方案,特别是基于纯视觉,毕竟不是每辆车都有激光雷达。

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

VRSO+是一种以视觉为主、面向静态对象标注的标注系统,主要利用了SFM、2D物体检测和实例分割结果的信息,整体效果:

  • 标注的平均投影误差仅为2.6像素,约为Waymo标注的四分之一(10.6像素)
  • 与人工标注相比,速度提高了约16倍

对于静态物体,VRSO通过实例分割和轮廓提取关键点,解决了从不同视角集成和去重静态对象的挑战,以及由于遮挡问题而导致观察不足的困难,从而提高了标注的准确性。从图1上看,与Waymo Open数据集的手动标注结果相比,VRSO展示了更高的鲁棒性和几何精度。

(都看到这里了,不如大拇指往上滑,点击最上方的卡片关注我,整个操作只会花你 1.328 秒,然后带走未来所有干货,万一有用呢~

破局之法

VRSO系统主要分为两部分:场景重建静态对象标注

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

重建部分不是重点,就是基于 SFM 算法来恢复图像 pose 和稀疏的 3D 关键点。

静态对象标注算法,配合伪代码,大致流程是(以下会分步骤详细展开):

  • 采用现成的2D物体检测和分割算法生成候选
  • 利用 SFM 模型中的 3D-2D 关键点对应关系来跟踪跨帧的 2D 实例
  • 引入重投影一致性来优化静态对象的3D注释参数

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

1.跟踪关联

  • step 1:根据 SFM 模型的关键点提取 3D 边界框内的 3D 点。
  • step 2:根据 2D-3D 匹配关系计算每个 3D 点在 2D 地图上的坐标。
  • step 3:基于 2D 地图坐标和实例分割角点确定当前 2D 地图上 3D 点的对应实例。
  • step 4:确定每个 2D 图像的 2D 观察与 3D 边界框之间的对应关系。

2.proposal 生成

对静态物体的 3D 框参数(位置、方向、大小)进行整个视频剪辑的初始化。SFM 的每个关键点都有准确的3D位置和对应的 2D 图像。对于每个 2D 实例,提取 2D 实例掩码内的特征点。然后,一组对应 3D 关键点可以被视为 3D 边界框的候选。

路牌被表示为在空间中具有方向的矩形,它有6个自由度,包括平移(、、)、方向(θ)和大小(宽度和高度)。考虑到其深度,交通信号灯具有7个自由度。交通锥的表示方式与交通信号灯类似。

3.proposal refine

  • step 1:从 2D 实例分割中提取每个静态物体的轮廓。
  • step 2:为轮廓轮廓拟合最小定向边界框(OBB)。
  • step 3:提取最小边界框的顶点。
  • step 4:根据顶点和中心点计算方向,并确定顶点顺序。
  • step 5:基于2D检测和实例分割结果进行了分割和合并过程。
  • step 6:检测并拒绝包含遮挡的观察。从2D实例分割蒙版中提取顶点要求每个标牌的四个角都可见。如果有遮挡,从实例分割中提取轴对齐边界框(AABB),并计算AABB与2D检测框之间的面积比。如果没有遮挡,这两种面积计算方法应该是接近的。

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

4.三角化

通过三角化在3D条件下获取静态物体的初始顶点值。

通过检查在场景重建期间由 SFM 和实例分割获得的3D边界框中的关键点数量,只有关键点数量超过阈值的实例被认为是稳定且有效的观测。对于这些实例,相应的 2D 边界框被视为有效的观测。通过多幅图像的 2D 观测,将 2D边界框顶点进行三角化,以获取边界框的坐标。

对于没有在掩模上区分“左下、左上、右上、右上和右下”顶点的圆形标牌,需要识别这些圆形标牌。使用 2D 检测结果作为圆形物体的观测结果,使用 2D 实例分割掩模进行轮廓提取。通过最小二乘拟合算法计算出中心点和半径。圆形标牌的参数包括中心点(、、)、方向(θ)和半径()。

5.tracking refine

跟踪基于 SFM 的特征点匹配。根据 3D 边界框顶点的欧式距离和 2D 边界框投影 IoU 来确定是否合并这些分开的实例。一旦合并完成,实例内的 3D 特征点可以聚集以关联更多的2D特征点。进行迭代2D-3D关联,直到无法添加任何2D特征点为止。

6.最终参数优化

以矩形标牌为例,可优化的参数包括位置(、、)、方向(θ)和大小(、),总共六个自由度。主要步骤包括:

  • 将六个自由度转换为四个 3D 点,并计算旋转矩阵。
  • 将转换后的四个 3D 点投影到2D图像上。
  • 计算投影结果与实例分割得到的角点结果之间的残差。
  • 使用 Huber 进行优化更新边界框参数

标注效果

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

也有一些具有挑战性的长尾案例,例如极低的分辨率和照明不足。

效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!

总结一下

VRSO 框架实现了静态物体高精度和一致的3D标注,紧密集成了检测、分割和 SFM 算法,消除了智能驾驶标注中的人工干预,提供了与基于LiDAR的手动标注相媲美的结果。和被广泛认可的Waymo Open Dataset进行了定性和定量评估:与人工标注相比,速度提高了约16倍,同时保持了最佳的一致性和准确性。

理论要掌握,实操不能落!以上关于《效率狂增16倍!VRSO:纯视觉静态物体3D标注,打通数据闭环!》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
小米SU7售后维修政策揭晓:坚持价格厚道,用户无后顾之忧小米SU7售后维修政策揭晓:坚持价格厚道,用户无后顾之忧
上一篇
小米SU7售后维修政策揭晓:坚持价格厚道,用户无后顾之忧
刷新后地图中的值发生变化
下一篇
刷新后地图中的值发生变化
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 畅图AI:AI原生智能图表工具 | 零门槛生成与高效团队协作
    畅图AI
    探索畅图AI:领先的AI原生图表工具,告别绘图门槛。AI智能生成思维导图、流程图等多种图表,支持多模态解析、智能转换与高效团队协作。免费试用,提升效率!
    24次使用
  • TextIn智能文字识别:高效文档处理,助力企业数字化转型
    TextIn智能文字识别平台
    TextIn智能文字识别平台,提供OCR、文档解析及NLP技术,实现文档采集、分类、信息抽取及智能审核全流程自动化。降低90%人工审核成本,提升企业效率。
    29次使用
  • SEO  简篇 AI 排版:3 秒生成精美文章,告别排版烦恼
    简篇AI排版
    SEO 简篇 AI 排版,一款强大的 AI 图文排版工具,3 秒生成专业文章。智能排版、AI 对话优化,支持工作汇报、家校通知等数百场景。会员畅享海量素材、专属客服,多格式导出,一键分享。
    26次使用
  • SEO  小墨鹰 AI 快排:公众号图文排版神器,30 秒搞定精美排版
    小墨鹰AI快排
    SEO 小墨鹰 AI 快排,新媒体运营必备!30 秒自动完成公众号图文排版,更有 AI 写作助手、图片去水印等功能。海量素材模板,一键秒刷,提升运营效率!
    23次使用
  • AI Fooler:免费在线AI音频处理,人声分离/伴奏提取神器
    Aifooler
    AI Fooler是一款免费在线AI音频处理工具,无需注册安装,即可快速实现人声分离、伴奏提取。适用于音乐编辑、视频制作、练唱素材等场景,提升音频创作效率。
    30次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码