当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用于精确目标检测的多网格冗余边界框标注

用于精确目标检测的多网格冗余边界框标注

来源:51CTO.COM 2024-05-28 11:33:10 0浏览 收藏

偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《用于精确目标检测的多网格冗余边界框标注》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!

一、前言

目前领先的目标检测器是基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器,它接收输入图像并将其划分为大小相等的网格矩阵。具有目标中心的网格单元负责检测特定目标。

今天分享的,就是提出了一种新的数学方法,该方法为每个目标分配多个网格,以实现精确的tight-fit边界框预测。研究者还提出了一种有效的离线复制粘贴数据增强来进行目标检测。新提出的方法显着优于一些当前最先进的目标检测器,并有望获得更好的性能。

二、背景

目标检测网络旨在使用精密匹配边界框在图像上定位对象并准确标记它们。最近,有两种不同的方法可以实现这一目标。第一种方法是性能方面,最主要的方法是两阶段目标检测,最好的代表是区域卷积神经网络(RCNN)及其衍生物[Faster R-CNN: Towards real-time object detection with region proposal networks]、[Fast R-CNN]。相比之下,第二组目标检测实现的因其出色的检测速度和轻量级而被人们所知,被称为单阶段网络,代表性示例为[You only look once: Unified, real-time object detection]、[SSD: Single shot multibox detector]、[Focal loss for dense object detection]。两阶段网络依赖于一个潜在的区域建议网络,该网络生成了可能包含感兴趣对象的图像的候选区域。该网络生成的候选区域可以包含对象的感兴趣区域,在单阶段目标检测中,检测是在一个完整的前向传递中同时处理分类和定位。因此,通常情况下,单阶段网络更轻、更快且易于实现。

用于精确目标检测的多网格冗余边界框标注

今天的研究依然是坚持YOLO的方法,特别是YOLOv3,并提出了一种简单的hack,可以同时使用多个网络单元元素预测目标坐标、类别和目标置信度。每个对象的多网络单元元素背后的基本原理是通过强制多个单元元素在同一对象上工作来增加预测紧密拟合边界框的可能性。

用于精确目标检测的多网格冗余边界框标注

多网格分配的一些优点包括:

目标检测器提供它正在检测的对象的多视角图,而不仅仅依靠一个网格单元来预测对象的类别和坐标。

(b+) 较少随机和不确定的边界框预测,这意味着高精度和召回率,因为附近的网络单元被训练来预测相同的目标类别和坐标;

(c) 减少具有感兴趣对象的网格单元与没有感兴趣对象的网格之间的不平衡。

此外,由于多网格分配是对现有参数的数学利用,并且不需要额外的关键点池化层和后处理来将关键点重新组合到其对应的目标,如CenterNet和CornerNet,可以说它是一个更实现无锚或基于关键点的目标检测器试图实现的自然方式。除了多网格冗余注释,研究者还引入了一种新的基于离线复制粘贴的数据增强技术,用于准确的目标检测。

三、MULTI-GRID ASSIGNMENT

用于精确目标检测的多网格冗余边界框标注

上图包含三个目标,即狗、自行车和汽车。为简洁起见,我们将解释我们在一个对象上的多网格分配。上图显示了三个对象的边界框,其中包含更多关于狗的边界框的细节。下图显示了上图的缩小区域,重点是狗的边界框中心。包含狗边界框中心的网格单元的左上角坐标用数字0标记,而包含中心的网格周围的其他八个网格单元的标签从1到8。

用于精确目标检测的多网格冗余边界框标注

到目前为止,我已经解释了包含目标边界框中心的网格如何注释目标的基本事实。这种对每个对象仅一个网格单元的依赖来完成预测类别的困难工作和精确的tight-fit边界框引发了许多问题,例如:

(a)正负网格之间的巨大不平衡,即有和没有对象中心的网格坐标

(b)缓慢的边界框收敛到GT

(c)缺乏要预测的对象的多视角(角度)视图。

所以这里要问的一个自然问题是,“显然,大多数对象包含一个以上网格单元的区域,因此是否有一种简单的数学方法来分配更多这些网格单元来尝试预测对象的类别和坐标连同中心网格单元?”。这样做的一些优点是(a)减少不平衡,(b)更快的训练以收敛到边界框,因为现在多个网格单元同时针对同一个对象,(c)增加预测tight-fit边界框的机会(d) 为YOLOv3等基于网格的检测器提供多视角视图,而不是对象的单点视图。新提出的多重网格分配试图回答上述问题。

用于精确目标检测的多网格冗余边界框标注

Ground-truth encoding

四、训练

 A. The Detection Network: MultiGridDet

MultiGridDet是一个目标检测网络,通过从YOLOv3中删除六个darknet卷积块来使其更轻、更快。一个卷积块有一个Conv2D+Batch Normalization+LeakyRelu。移除的块不是来自分类主干,即Darknet53。相反,将它们从三个多尺度检测输出网络或头中删除,每个输出网络两个。尽管通常深度网络表现良好,但太深的网络也往往会快速过度拟合或大幅降低网络速度。

B. The Loss function

用于精确目标检测的多网格冗余边界框标注

用于精确目标检测的多网格冗余边界框标注

Coordinate activation function plot with different β values

C. Data Augmentation

离线复制粘贴人工训练图像合成工作如下:首先,使用简单的图像搜索脚本,使用地标、雨、森林等关键字从谷歌图像下载数千张背景无对象图像,即没有我们感兴趣的对象的图像。然后,我们从整个训练数据集的随机q个图像中迭代地选择p个对象及其边界框。然后,我们生成使用它们的索引作为ID选择的p个边界框的所有可能组合。从组合集合中,我们选择满足以下两个条件的边界框子集:

  • if arranged in some random order side by side, they must fit within a given target background image area
  • and should efficiently utilize the background image space in its entirety or at least most part of it without the objects overlap.

五、实验及可视化

Pascal VOC 2007上的性能比较

用于精确目标检测的多网格冗余边界框标注

用于精确目标检测的多网格冗余边界框标注

coco数据集上的性能比较

用于精确目标检测的多网格冗余边界框标注

用于精确目标检测的多网格冗余边界框标注

从图中可以看出,第一行显示了六个输入图像,而第二行显示了网络在非极大抑制(NMS)之前的预测,最后一行显示了MultiGridDet在NMS之后对输入图像的最终边界框预测。

本篇关于《用于精确目标检测的多网格冗余边界框标注》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
高亮反光终结者?谷歌NeRF-Casting:光线追踪就能搞定!高亮反光终结者?谷歌NeRF-Casting:光线追踪就能搞定!
上一篇
高亮反光终结者?谷歌NeRF-Casting:光线追踪就能搞定!
科技昨夜今晨 0528:抖音要求演绎内容需明确标注,否则最高永久封号;知乎 PC 端不登录无法看全文;荣耀 200 / Pro 手机发布,售价 2699 元起
下一篇
科技昨夜今晨 0528:抖音要求演绎内容需明确标注,否则最高永久封号;知乎 PC 端不登录无法看全文;荣耀 200 / Pro 手机发布,售价 2699 元起
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    14次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    23次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    30次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    40次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    35次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码