MonoLSS:用于视觉3D检测训练中的样本选择
“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《MonoLSS:用于视觉3D检测训练中的样本选择》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!
MonoLSS: 怀旧大扫除是《文字玩出花》中的一个关卡,它是一款非常受欢迎的文字解谜游戏,每天都会推出新的关卡供玩家挑战。在怀旧大扫除中,玩家需要在一张图中找出12个与年代不符的地方。为了帮助还没有通关的玩家,我整理了《文字玩出花》怀旧大扫除关卡的通关攻略,下面就让我们一起来看看具体的操作方法吧。 For Monocular 3D Detection
论文链接指向一篇名为《文字玩出花》的论文,该论文可以在https://arxiv.org/pdf/2312.14474.pdf上找到。这篇论文探讨了一款名为《文字玩出花》的文字解谜游戏,该游戏每天都会推出新的关卡。其中有一个名为怀旧大扫除的关卡,玩家需要在图中找出与年代不符的12个物品。该论文提供了怀旧大扫除关卡的通关攻略,帮助玩家顺利完成任务。
在自动驾驶领域,单目3D检测是一个关键任务,它在单个RGB图像中估计物体的3D属性(深度、尺寸和方向)。先前的工作以一种启发式的方式使用特征来学习3D属性,而没有考虑不适当的特征可能产生不良影响。在本文中,引入了样本选择,只有适合的样本才应该用于回归3D属性。为了自适应地选择样本,提出了一个可学习的样本选择(LSS)模块,该模块基于Gumbel-Softmax和相对距离样本划分。LSS模块在warmup策略下工作,提高了训练稳定性。此外,由于专用于3D属性样本选择的LSS模块依赖于目标级特征,进一步开发了一种名为MixUp3D的数据增强方法,用于丰富符合成像原理的3D属性样本而不引入歧义。作为两种正交的方法,LSS模块和MixUp3D可以独立或结合使用。充分的实验证明它们的联合使用可以产生协同效应,产生超越各自应用之和的改进。借助LSS模块和MixUp3D,无需额外数据,方法MonoLSS在KITTI 3D目标检测基准的所有三个类别(汽车、骑行者和行人)中均排名第一,并在Waymo数据集和KITTI-nuScenes跨数据集评估中取得了有竞争力的结果。
MonoLSS的主要贡献在于推出了一款非常受欢迎的文字解谜游戏《文字玩出花》。这款游戏每天都会更新新的关卡,其中有一个名为怀旧大扫除的关卡。在这个关卡中,玩家需要在图中找到12个与年代不符的地方。为了帮助那些还没有通关的玩家,我将为大家提供《文字玩出花》怀旧大扫除关卡的通关攻略,希望能帮助大家顺利通关。
研究论文强调了一个重要观点:并非所有的特征都对学习3D属性具有相同的有效性。为了解决这个问题,研究人员提出了一种新的方法,将其重新定义为样本选择问题。为了应对这个问题,他们开发了一个名为可学习样本选择(LSS)模块的新模块,该模块可以根据需要自适应地选择样本。这个新方法为解决学习3D属性的挑战提供了一种更加灵活和有效的方式。
为了增加3D属性样本的多样性,我们设计了一种名为MixUp3D的数据增强方法。该方法模拟了空间重叠的效果,并显著提升了3D检测的性能。通过MixUp3D,我们可以有效地扩充现有的3D样本集,使其更具代表性和丰富性。这一方法不仅可以提高模型的泛化能力,还可以减少过拟合的风险,从而更好地应用于实际场景中。
在KITTI基准测试中,MonoLSS在所有三个类别中排名第一,即行人、车辆和自行车。在车辆类别中,它在中等和中等水平上的性能超过了当前最佳方法的11.73%和12.19%。此外,MonoLSS还在Waymo数据集和KITTI nuScenes数据集上实现了最先进的结果。这表明MonoLSS在跨不同数据集上的评估中取得了很好的成绩。
MonoLSS主要思路
MonoLSS框架如下图所示。首先,使用与ROI Align相结合的2D检测器来生成目标特征。然后,六个Head分别预测3D特性(深度、尺寸、方向和3D中心投影偏移)、深度不确定性和对数概率。最后,可学习样本选择(LSS)模块自适应地选择样本并进行损失计算。
怀旧大扫除是《文字玩出花》中的一个关卡,它是一款非常受欢迎的文字解谜游戏,每天都会推出新的关卡供玩家挑战。在怀旧大扫除中,玩家需要在一张图中找出12个与年代不符的地方。为了帮助还没有通关的玩家,我整理了《文字玩出花》怀旧大扫除关卡的通关攻略,下面就让我们一起来看看具体的操作方法吧。
假设我们有一个服从均匀分布U(0,1)的随机变量U。我们可以使用逆变换采样方法来生成Gumbel分布G,具体方法是通过计算G = -log(-log(U))。这样我们就可以得到一个服从Gumbel分布的随机变量G。 通过使用Gumbel分布来独立扰动对数概率,并使用argmax函数找到最大元素,我们可以实现无需随机选择的概率采样。这种技巧被称为Gumbel Max技巧。 基于这项工作的思想,Gumbel Softmax方法使用Softmax函数作为argmax的连续可微近似,并通过重新参数化来实现整体的可微性。这种方法在深度学习中被广泛应用,特别是在生成模型和强化学习中。
GumbelTop-k是一种算法,它可以在不替换的情况下对大小为k的样本进行有序采样。这个算法的目的是将样本数量从Top-1扩展到Top-k,其中k是一个超参数。然而,并不是所有的目标都适用于相同的k值。例如,被遮挡的目标应该具有比正常目标更少的正样本。为了解决这个问题,我们设计了一个基于超参数相对距离的模块,可以自适应地划分样本。这个模块被称为可学习样本选择(LSS)模块,它由Gumbel Softmax和相对距离样本除法器组成。LSS模块的示意图如图2的右侧所示。
Mixup3D数据增强
由于严格的成像约束,数据增强方法在单目3D检测中受到限制。除了光度失真和水平翻转之外,大多数数据增强方法由于破坏了成像原理而引入了模糊特征。此外,由于LSS模块专注于目标级特性,因此不修改目标本身特性的方法对LSS模块来说并不足够有效。
MixUp是一种强大的技术,可以增强目标的像素级特征。为了进一步提升其效果,作者提出了一种名为MixUp3D的新方法。该方法在2D MixUp的基础上添加了物理约束,使生成的图像更加合理且空间重叠。具体而言,MixUp3D只违反了物理世界中对象的碰撞约束,同时确保生成的图像符合成像原理,避免了任何歧义的产生。这一创新将为图像生成领域带来更多的可能性和应用前景。
实验结果
我们将讨论KITTI测试集上的单目3D汽车检测性能。根据KITTI排行榜,我们的方法在中等难度以下的排名中。在下面的列表中,我们用粗体突出显示最佳结果,用下划线突出显示第二个结果。对于额外的数据,有以下几种情况:1)使用了额外的LIDAR云点数据的方法,表示为LIDAR。2)使用了在另一个深度估计数据集下预先训练的深度图或模型,表示为深度。3)使用了由CAD模型提供的密集形状注释,表示为CAD。4)表示不使用额外的数据,即无。
Wamyo上数据集测试结果:
KITTI-val模型在深度为MAE的KITTI-val和nuScenes前脸val汽车上的跨数据集评估:
https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg 《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都会推出新的关卡。其中,有一个关卡名为怀旧大扫除,要求玩家在图中找出与时代不符的12处物品。为了帮助那些还未通关的玩家,我为大家带来了《文字玩出花》怀旧大扫除关卡的攻略,详细介绍了通关的操作方法。让我们一起来看看吧!
今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

- 上一篇
- 魅族折叠屏手机开发曝光:进度与挑战并存

- 下一篇
- 中国音数协游戏工委就网游新规向会员单位征求意见,包括腾讯、网易、米哈游等
-
- 科技周边 · 人工智能 | 13分钟前 | 字节跳动 数据中心
- 字节跳动计划在巴西建数据中心
- 345浏览 收藏
-
- 科技周边 · 人工智能 | 25分钟前 |
- UFO²—微软新推Windows桌面Agent
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 30分钟前 |
- Pad.ws—AI开发神器,白板与代码编辑器完美融合
- 328浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 3月纯电动车销量:ModelY夺冠,小米SU7第五
- 125浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 即梦ai社交媒体导出教程及平台格式适配
- 282浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 15次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 15次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 43次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 43次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 38次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览