当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

来源:机器之心 2024-07-10 14:06:36 0浏览 收藏

小伙伴们对科技周边编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对大家的知识积累有所帮助!

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com  

论文第一作者为中山大学计算机学院研二硕士生陈家豪,研究方向为神经渲染和三维重建,导师为李冠彬教授。该论文是他的第一个工作。论文通讯作者为中山大学计算机学院、人机物智能融合实验室李冠彬教授,博士生导师,国家优秀青年基金获得者。团队主要研究领域为视觉感知、场景建模、理解与生成。迄今为止累计发表 CCF A 类 / 中科院一区论文 150 余篇,Google Scholar 引用超过 12000 次,曾获得吴文俊人工智能优秀青年奖等荣誉。

自被提出以来,神经辐射场(Neural Radiance Fields, NeRF)因其在新视角合成及三维重建中的出色表现而受到极大关注。

虽然大量工作都在尝试改进 NeRF 的渲染质量或运行速度,但一个现实的问题很少被人提及:如果待建模场景中出现了意想不到的瞬态干扰物,我们应该如何消除它们对 NeRF 造成的影响

本文中,来自中山大学、卡迪夫大学、宾夕法尼亚大学和思谋科技的研究人员对此展开了深入研究,并提出了一种解决该问题的新颖范式。

通过总结现有方法的优势缺陷、拓宽已有技术的应用思路,该方法不仅可以在各类场景中准确区分静瞬态元素、提高 NeRF 的渲染质量,还入围了 CVPR 2024 最佳论文候选。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

  • 论文链接:https://arxiv.org/abs/2403.17537
  • 项目链接:https://www.sysu-hcp.net/projects/cv/132.html

让我们一起来了解下这项工作。

背景介绍

新视角合成是计算机视觉和图形学的一个重要任务,算法模型需要利用给定的多视角图像及相机位姿来生成目标位姿对应的图像。NeRF 在该任务上取得了重要突破,但其有效性与静态场景的假设有关。

具体来说,NeRF 要求待建模场景在拍摄过程中保持静止、多视角图像内容必须一致。在现实中,我们很难满足这种要求,例如在户外拍摄时场景以外的车辆或路人可能会在镜头中随机出现移动,在室内拍摄时某个物体或阴影会不经意间遮挡镜头。我们把这类场景以外的表现出运动或不一致的元素称为瞬态干扰物(Transient Distractors)。如果我们不能消除它们,它们会给 NeRF 的渲染结果带来伪影。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

                              瞬态干扰物(黄色方框)的存在会导致大量伪影。

目前解决瞬态干扰物问题的方法大致可分为两种。第一种方法使用语义分割等已有分割模型显式地得到与干扰物有关的掩膜,然后在训练 NeRF 时屏蔽对应像素。虽然这类方法可以得到精确的分割结果,但它们并不通用。这是因为我们需要提前得知与干扰物有关的先验知识(如物体类别、初始掩膜等)、并且模型可以识别这些干扰物。

与第一种方法不同,第二种方法在训练 NeRF 时使用启发式算法隐式地处理瞬态干扰物,不要求先验知识。虽然这类方法更加通用,但它们因设计复杂性和高度不适定性而无法准确分离瞬态干扰物和静态场景元素。例如,由于瞬态像素对应的颜色纹理在不同视角下不一致,在训练 NeRF 时该像素的预测值和真值之间的颜色残差往往大于静态像素的残差。然而,场景中的高频静态细节也会因难以拟合而有过大的残差,因此一些通过设置残差阈值来去除瞬态干扰物的方法很容易丢失高频静态细节。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

现有方法与本文提出的启发式引导分割(HuGS)之间的比较。当静态场景被瞬态干扰物干扰时,(a)基于分割的方法依赖先验知识,会因无法识别意料之外的瞬态物体(例如比萨)而出现相关伪影;(b)基于启发式的方法更具通用性但不够准确(例如丢失了高频静态桌布纹理);(c)HuGS 结合了它们的优点,能够精确地分离瞬态干扰物和静态场景元素,从而显著改善 NeRF 的结果。

方法概述

基于分割模型的方法准确但不通用、基于启发式算法的方法通用但不准确,那么是否可以把它们结合起来扬长补短、做到既准确又通用呢?

因此,论文作者以「horses for courses」为动机,提出了一种名为启发式引导分割(Heuristics-Guided Segmentation, HuGS)的新颖范式。通过巧妙结合手工设计的启发式算法和由提示驱动的分割模型,HuGS 可以在没有额外先验知识的情况下准确区分场景中的瞬态干扰物和静态元素。

具体来说,HuGS 首先使用启发式算法大致区分多视角图像中的静瞬态元素并输出粗糙提示,然后使用粗糙提示引导分割模型生成更加精确的分割掩膜。在训练 NeRF 时,这些掩膜会被用来屏蔽瞬态像素、消除瞬态干扰物对 NeRF 的影响。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

                              HuGS 设计思路。

在具体实现上,论文作者选用 Segment Anything Model (SAM) 作为 HuGS 的分割模型。SAM 是当前最先进的基于提示驱动的分割模型,可以接受点、框、掩膜等不同类型的提示输入并输出对应的实例分割掩膜。

至于启发式算法,作者在深入分析后提出了一种组合启发式:基于 Structure-from-Motion (SfM) 的启发式被用于捕获场景的高频静态细节,而基于颜色残差的启发式被用于捕获低频静态细节。两种启发式算法输出的粗糙静态掩膜互不相同,而它们的并集会被用来引导 SAM 得到更加准确的静态掩膜。通过无缝结合这两种启发式算法,HuGS 在面对不同纹理细节时可以稳健地识别各类静态元素。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

HuGS 流程图。(a) 给定带有瞬态干扰物的静态场景下的无序多视角图像,HuGS 首先获得两种启发式信息。(b) 基于 SfM 的启发式算法通过 SfM 来获取区分静态特征点瞬态特征点,然后使用稀疏的静态特征点作为提示引导 SAM 生成稠密的静态掩膜。(c) 基于颜色残差的启发式算法依赖于部分训练(即只经过数千次迭代训练)的 NeRF。其预测图像和真实图像之间的颜色残差可以用于生成另一组静态掩膜。(d) 两种不同掩膜的结合最终引导 SAM 生成 (e) 每个图像的准确静态掩膜。

基于 SfM 的启发式算法

SfM 是一种从二维图像重建三维结构的技术。在提取图像的二维特征后,SfM 会对特征进行匹配和几何验证、重建稀疏三维点云。SfM 在 NeRF 中常被用于估计图像相机位姿,而论文作者发现 SfM 还可以被用来区分场景的静瞬态元素。设某个二维特征点的匹配数量为与其对应相同三维点云点的其他二维特征点数量,那么来自静态区域的二维特征点的匹配数量要大于来自瞬态区域的特征点匹配数量。

基于该发现,我们可以在匹配数量上设置阈值来过滤得到静态特征点,再通过 SAM 将静态特征点转换为静态掩膜。为了验证该发现的正确性,论文作者在 Kubric 数据集上进行了统计。正如下图所示,不同图像区域的特征点匹配数量有显著的差异。另一个可视化结果表明合理的阈值设置可以在去除瞬态特征点的同时保留静态特征点。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

左图为来自不同图像区域的特征点在匹配数量上的数量分布直方图,其中静态区域特征点的匹配数量均匀分布在 [0,200] 区间内,而瞬态区域特征点的匹配数量趋近于 0、集中分布在 [0,10] 区间内。右图为经过过滤后不同图像区域的剩余特征点密度随阈值变化的曲线图,其中整张图像与静态区域的剩余特征点密度随着阈值上升呈线性下降,而瞬态区域的剩余特征点密度呈指数下降、并在阈值大于 0.2 后几乎为 0。CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识
两个不同视角图像的剩余特征点随阈值上升而变化的可视化分布情况。位于瞬态区域内的剩余特征点被逐渐去除,而静态区域的大部分特征点仍被保留。

基于颜色残差的启发式算法

虽然基于 SfM 的启发式在大部分场景中表现良好,但它无法很好地捕获静态平滑纹理,这是因为平滑纹理缺乏显著特征、难以被 SfM 的特征提取算法识别。

为了能够识别低频纹理,论文作者引入了基于颜色残差的启发式算法:首先在原始多视角图像上部分训练 NeRF(即只迭代数千次)、得到欠拟合模型,然后获取渲染图像和目标图像之间的颜色残差。正如背景介绍所述,低频静态纹理区域的颜色残差要小于其他类型区域的残差,因此可以在颜色残差上设置阈值获取与低频静态纹理相关的粗糙掩膜。通过颜色残差得到的掩膜可以和通过 SfM 得到的掩膜互补,形成完整结果。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

两种启发式算法的组合,其中(a)为输入的目标图像,(d)为只迭代五千次的 NeRF 渲染结果。基于 SfM 的启发式得到的静态掩膜 (b) 在捕获高频静态细节(如盒子纹理)的同时遗漏了静态平滑部分(如白色椅背)。基于颜色残差的启发式得到的静态掩膜(e)及其单独引导 SAM 得到的分割掩膜(f)取得了相反效果。它们的并集(c)在覆盖所有静态元素的同时区分了瞬态干扰物(即粉色气球)。

实验结果

可视化结果

这里展示了 HuGS 在两个不同真实场景下的可视化分割过程,以及基线模型 Mip-NeRF 360 在应用静态掩膜前后的渲染结果比较。在组合启发式算法和 SAM 的帮助下,HuGS 可以生成准确的静态掩膜,而 Mip-NeRF 360 在应用静态掩膜后消除了大量伪影,RGB 图和深度图的渲染质量有明显提升。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

定性 / 定量渲染结果比较

这里展示了论文方法在三个数据集和两个基线模型上的实验结果,以及与现有方法的比较。现有方法要么无法消除瞬态干扰物带来的伪影,要么抹除掉过多的静态纹理细节。相比之下,论文方法可以在有效消除伪影的同时更好地保留静态细节。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

定性 / 定量分割结果比较

论文作者同样在 Kubric 数据集上与现有分割算法进行了比较。实验结果表明,即使提供了先验知识,语义分割、视频分割等现有分割模型依然表现不佳,这是因为现有分割模型都没有针对该任务进行设计。现有基于启发式的方法虽然可以大致定位瞬态干扰物的位置,但无法得到更加精确的分割结果。与之相比,HuGS 通过结合启发式算法和分割模型,在没有额外先验知识的情况下准确分离瞬态干扰物和静态场景元素。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

消融实验结果

论文作者还通过去除不同组件的方式来验证各组件对 HuGS 造成的影响。结果表明,缺少基于 SfM 的启发式的模型 (b) 无法很好地重建蓝色方框中的低频静态纹理,而缺少基于颜色残差的启发式的模型 (c) 和 (d) 丢失了黄色方框中的高频静态细节。相比之下,完整方法 (f) 的数值指标和可视化结果最佳。

CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识

全文总结

论文提出了一种新颖的启发式引导分割范式,有效解决了 NeRF 现实训练中常见的瞬时干扰问题。通过战略性地结合手工设计的启发式和最先进的分割模型的互补优势,该方法在没有任何先验知识的情况下实现了对不同场景中瞬时干扰物的高度准确分割。通过精心设计的启发式,论文方法能够稳健地捕捉到高频和低频的静态场景元素。大量实验证明了该方法的先进性。

文中关于工程的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态
上一篇
彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态
70万人争先体验!视频生成新王者「可灵AI」又双叒升级了
下一篇
70万人争先体验!视频生成新王者「可灵AI」又双叒升级了
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    18次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    29次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    26次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    28次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    30次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码