当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 揭开纪念碑谷式错觉图像的秘密- 港大和TikTok的Depth Anything在热火朝天

揭开纪念碑谷式错觉图像的秘密- 港大和TikTok的Depth Anything在热火朝天

来源:51CTO.COM 2024-01-23 19:22:15 0浏览 收藏

一分耕耘,一分收获!既然都打开这篇《揭开纪念碑谷式错觉图像的秘密- 港大和TikTok的Depth Anything在热火朝天》,就坚持看下去,学下去吧!本文主要会给大家讲到等等知识点,如果大家对本文有好的建议或者看到有不足之处,非常欢迎大家积极提出!在后续文章我会继续更新科技周边相关的内容,希望对大家都有所帮助!

人类可以通过两只眼睛来感知视觉环境的深度,但是机器人和虚拟现实头盔等设备通常没有这样的配置。它们通常只能依靠单个摄像头或单张图像来估计深度,这就是所谓的单目深度估计(MDE)任务。

最近,一种名为 Depth Anything 的新 MDE 模型引起了社交网络上的广泛讨论。这个模型能够高效利用大规模无标注图像,并以其令人惊叹的性能赢得了试用者的赞誉。

有用户发现它能处理埃舍尔的错觉绘画艺术(如《纪念碑谷》),令人惊叹。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

从水上到水下,丝滑切换:

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

通过使用更好的深度模型,我们得到了效果更好的以深度为条件的ControlNet,这对于图像生成和视频编辑非常有用。如下图所示,生成的内容质量得到了显著提升。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

理论上,基础模型可用于解决单目深度估计(MDE)问题,即通过单张图像估计深度信息。这类技术在机器人、自动驾驶、虚拟现实等领域具有广阔的应用前景。然而,由于构建带有数千万深度标签的数据集难度较大,研究者对此问题的探索仍然相对较少。

此前的 MiDaS 算得上是这个方向上的一项开创性研究,其基于一个混合标注的数据集训练了一个 MDE 模型。尽管 MiDaS 展现出了一定程度的零样本能力,但受限于其数据覆盖范围,其在某些场景中的表现非常差。

来自香港大学、TikTok 等机构的研究者提出的 Depth Anything ,则是一个更为实用的解决方案。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

  • 论文标题:Depth Anything Unleashing the Power of Large-Scale Unlabeled Data
  • 论文地址:https://arxiv.org/pdf/2401.10891.pdf
  • 项目主页:https://depth-anything.github.io/
  • 演示地址:https://huggingface.co/spaces/LiheYoung/Depth-Anything

该研究的目标是构建一种能在任何情况下处理任何图像的简单却又强大的基础模型。为了做到这一点,该团队采用了一种方法扩大数据集的规模:设计了一种数据引擎来收集和自动标注大规模无标注数据(约 6200 万)。这能显著扩大数据覆盖范围,并由此可以降低泛化错误。

为了保证数据扩展的质量,研究者探索了两种简单却有效的策略。

第一,利用数据增强工具创建一个难度更高的优化目标。这会迫使模型主动寻找额外的视觉知识并获取鲁棒的表征。

第二,开发一种辅助监督机制,可强制模型从预训练编码器继承丰富的语义先验知识。

团队使用 6 个公共数据集和随机拍摄的照片评估了新方法的零样本能力,其泛化能力非常出色。更进一步,使用来自 NYUv2 和 KITTI 的度量深度信息对模型进行微调后,新模型获得了新的 SOTA 结果。

这篇论文的主要贡献包括:

  • 强调了大规模、低成本和多样化无标注图像的数据扩展对 MDE 的价值。
  • 指出了在联合训练大规模有标注和无标注图像方面的一个重要实践方法:不是直接学习原始无标注图像,而是为模型提供更困难的优化目标,让其学会使用额外的知识。
  • 提出从预训练编码器继承丰富的语义先验,从而实现更好的场景理解,而不是使用辅助性语义分割任务。
  • 新模型的零样本能力超过 MiDaS-BEiT_L-512。不仅如此,使用度量深度进行微调后,新模型的表现更是显著超过 ZoeDepth。

Depth Anything

TikTok 的这项研究使用了有标注和无标注图像来实现更好的单目深度估计(MDE)。用数学形式表示,可以将有标注和无标注集分别表示成:

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

这里的目标是根据 D^l 学习得到一个教师模型 T。然后,使用 T 给 D^u 分配伪深度标签。最后,使用有标注集和伪标注集的组合数据集训练一个学生模型 S。图 2 是一个简单图示。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

学习有标注图像

这个过程与 MiDaS 的训练过程类似。具体来说,深度值首先会通过 d = 1/t 被转换到视差空间(disparity space)中,然后再把每张深度映射图归一化到 0~1 范围内。为了实现多数据集联合训练,该团队采用了仿射不变损失。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

这样一来就可以忽略每个样本的未知尺度和偏移。

为了得到稳健的单目深度估计模型,他们从 6 个公共数据集收集了 150 万张有标注图像。表 1 列出了这些数据集的详情。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

不仅如此,为了增强从这些有标注图像学习到的教师模型 T,他们还采用了 DINOv2 预训练权重对编码器进行初始化。在实践操作中,该团队的做法是使用一个经过预训练的语义分割模型来检测天空区域并将其视差值设置为 0(即最远)。

解放无标注图像的力量

这正是这项研究的主要目标。至于无标注图像源,该团队选择了 8 个大规模公共数据集,保证了多样性。这些数据集总共包含 6200 多万张图像。详情见表 1 下半部分。

技术上讲,给定之前获得的 MDE 教师模型 T,可在无标注集 D^u 上得到预测结果,从而得到一个伪标注集纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

该团队引入了两种形式的扰动:一种是强颜色扭变,包括颜色抖动和高斯模糊;另一种是强空间扭曲,也就是 CutMix。

尽管方法很简单,但这两种修改方法可让大规模无标注图像显著提升使用有标注图像训练的基准模型。


至于 CutMix,它最早是为图像分类提出的技术,目前还很少用于单目深度估计。该团队的做法是先在空间上插值一对随机的无标注图像 u_a 和 u_b:

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

在处理无标注图像时,该团队设定使用 CutMix 的概率为 50%。输入给 CutMix 的无标注图像已经在颜色上经历过强扭变,但给教师模型 T 进行伪标注的无标注图像却是干净的,没有任何扭变。

语义辅助型感知

这项研究首次尝试了组合使用 RAM + GroundingDINO + HQ-SAM 来为无标注图像分配语义分割标签。经过后处理之后,这得到了一个包含 4000 个类别的类别空间。

在联合训练阶段,该模型的任务使用一个共享的编码器和两个单独的解码器得到深度预测结果和分割预测结果。不幸的是,一番试错之后,该团队没能提升原始 MDE 模型的性能。

因此,他们的目标就变成了训练更多能提供信息的语义信号,以作为辅助监督信号助力深度估计任务。

该团队表示:「DINOv2 模型在语义相关任务的强大表现让我们大受震撼。」

因此,他们提出通过一个辅助特征对齐损失将其强大的语义能力迁移到新的深度模型。其特征空间是高维且连续的,因此包含的语义信息比离散掩码更丰富。该特征对齐损失的数学形式为:

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

实验及结果

研究者使用了 DINOv2 编码器进行特征提取。所有标注的数据集都简单地合并在一起,无需重新采样。无标注的图像由使用 ViT-L 编码器的最佳教师模型标注,每批标注和无标注图像的比例设定为 1:2。

零样本相对深度估计

研究者在六个具有代表性的不可见数据集 KITTI、NYUv2、Sintel、DDAD、ETH3D 和 DIODE 上全面验证了 Depth Anything 模型的零样本深度估计能力 ,并将其与最新 MiDaS v3.1 中的最佳 DPT-BEiT_L-512 模型进行了比较,后者使用的标注图像比前者多。

如表 2 所示,在均使用 ViT-L 编码器的前提下,在广泛的场景中,Depth Anything 在 AbsRel 和 δ_1 度量上都大大超过了 MiDaS 的最强模型。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

面向度量深度估计的微调

研究者进一步研究了 Depth Anything 模型,将其作为下游度量深度估计的一种有潜力的权重初始化方法。

两种有代表性的情况如下:

1) 域内度量深度估计,即在同一域内对模型进行训练和评估。如 NYUv2 表 3 所示,Depth Anything 模型明显优于之前的最佳方法 VPD,δ_1 (↑) 从 0.964 → 0.984,AbsRel (↓) 从 0.069 提高到 0.056。表 4 中的 KITTI 数据集也有类似的改进。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

2) 零样本度量深度估计,即模型在一个域(如 NYUv2)上进行训练,但在不同域(如 SUN RGB-D)上进行评估。如表 5 所示,在大量未见过的室内和室外场景数据集中,Depth Anything 比基于 MiDaS 的原始 ZoeDepth 得出了更好的度量深度估计模型。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

面向语义分割进行微调

在本文方法中,研究者设计了 MDE 模型,通过简单的特征对齐约束,从预训练编码器中继承丰富的语义先验。随后,研究者检验了 MDE 编码器的语义能力。

如 Cityscapes 数据集的表 7 所示,研究者从大规模 MDE 训练中获得的编码器(86.2 mIoU)优于从大规模 ImageNet-21K 预训练中获得的现有编码器,例如 Swin-L (84.3) 和 ConvNeXt-XL (84.6)。表 8 中的 ADE20K 数据集也有类似的观察结果。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

消融实验

在消融实验中,研究者使用了 ViT-L 编码器。表 6 展示了每个训练集的零样本迁移性能。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

如表 9 所示,简单地添加带有伪标签的无标注图像不一定为模型带来增益,大规模的无标注图像能够显著增强模型的泛化能力。

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

今天关于《揭开纪念碑谷式错觉图像的秘密- 港大和TikTok的Depth Anything在热火朝天》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
地平线正式开源迈向端到端自动驾驶的Sparse4D算法地平线正式开源迈向端到端自动驾驶的Sparse4D算法
上一篇
地平线正式开源迈向端到端自动驾驶的Sparse4D算法
MoE和Mamba合作,将状态空间模型扩展到数十亿参数
下一篇
MoE和Mamba合作,将状态空间模型扩展到数十亿参数
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    21次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    17次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    17次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    20次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    22次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码