清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体
怎么入门科技周边编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体》,涉及到,有需要的可以收藏一下
在计算机视觉中,物体级别的三维表面重建技术面临诸多挑战。与场景级别的重建技术不同,物体级别的三维重建需要为场景中的每个物体给出独立的三维表示,以支持细粒度的场景建模和理解。这对 AR/VR/MR 以及机器人相关的应用具有重要意义。
目前,有许多方法用于通过利用三维生成模型的隐空间来进行物体级别的三维重建。这些方法使用隐空间的编码向量来表示物体的形状,并将重建任务建模为对物体位姿和形状编码的联合估计。由于生成模型隐空间的优势,这些方法可以重建出完整的物体形状,但仅限于特定类别的物体,如桌子或椅子。即使在这些类别中,这些方法优化得到的形状编码也往往无法精确匹配实际物体的三维形状。另一些方法则通过从数据库中检索合适的CAD模型,并辅以物体位姿估计来完成三维重建。然而,这些方法面临着类似的问题,其可扩展性有限,重建准确性低,很难与物体的真实三维表面结构相吻合。
随着 NeRF 和 NeuS 等技术的发展,imap 和 vMap 等技术能够利用可微渲染来优化物体的几何结构,这些方法能够重建出更加贴合真实物体表面的网格模型,也能够重建多个类别的物体,打破单一物体类别的限制。然而,由于场景内部拍摄角度的约束,很多物体都是被遮挡的,比如靠近墙壁的物体,或者彼此遮挡的物体。在物体被遮挡的情况下,这些方法重建出的物体往往是不完整的,如下图所示。这些不完整的三维模型无法支持大角度的旋转和大范围平移,就很难被各种下游任务利用。
重建结果的遮挡下是一种常见的情况,但我们可以采取一些措施来解决这个问题。首先,我们可以尝试使用合适的工具或技术来去除遮挡物,例如使用图像处理软件来修复图像中的缺失部分。另外,我们还可以通过调整拍摄角度或使用光线效果来改善图像的可见性。此外,如果遮挡物无法移除或修复,我们可以尝试使用文字描述或其他方式来解释图像中被遮挡的内容,以确保信息的完整性和准确性。总的来说,处理遮挡下的重建结果需要我们灵活运用各种方法和技巧,以便得到清晰、完整的结果。
清华大学教授刘永进和他的团队最近提出了一种新的物体三维重建方法,称为O²-Recon。该方法利用现有的2D扩散模型来填补物体图像中被遮挡的区域,并通过神经隐式表面场从填补后的图像中重建出完整的三维物体。该研究利用重投影机制来确保填充区域的三维一致性,并在隐式重建过程中引入了CLIP损失函数,以监督不可见角度的语义信息。最终的结果是一个完整且合理的三维物体模型,支持大角度的旋转和平移,并可以用于各种后续任务。这篇论文已经被人工智能领域的顶级会议之一AAAI 2024接收。
论文链接:https://arxiv.org/abs/2308.09591
O²-Recon 简介
方法介绍
受到 2D 扩散模型在图像补全任务中出色表现的启发,研究者设计了 O²-Recon 方法,旨在利用预训练的扩散模型来补全图像中物体被遮挡的区域。虽然现有的扩散模型在图像补全中表现出强劲的性能,但如果没有准确的遮罩(Mask)来指出物体应当被补全的区域,扩散模型就很有可能生成错误的图像内容,比如超出正确区域的结构或者错误的形状。在 O²-Recon 方法中,研究者引入了少量的人工操作来构建准确的 Mask,从而保证 2D 补全和 3D 重建的质量。
给定一段RGB-D视频序列,其中包含一个带有物体遮罩的物体。用户需要选择1-3帧图像,并预测这些图像中被遮挡的物体区域,并绘制遮挡区域的遮罩。研究者使用扩散模型补全缺失的深度信息,并将这些视角下的遮罩投影到其他视角,得到其他视角下的遮挡区域遮罩。通过少量的人机交互,研究者确保了遮罩的质量。由于这些遮罩是通过重投影得到的,它们在不同视角下具有几何一致性。这种一致性可以指导2D扩散模型填充合理且一致的图像内容,填补遮挡区域。
在三维重建的过程中,研究者采用类似于 NeuS 的神经隐式表面场来进行表面重建,并通过体渲染构建损失函数进行优化。这种隐式表示能够在多视角优化的过程中逐渐学习出合理的三维结构,以解决补全图像可能存在的不一致性问题。此外,为了提升完全不可见区域的重建效果,研究者从两个角度进行了改进。首先,他们利用CLIP特征监督新视角下渲染结果与物体类别文本的一致性。其次,他们设计了一个级联网络结构来编码隐式表面场,其中包括一个浅层的MLP和低频位置编码,以确保表面的整体平滑性,以及一个更深层的MLP分支和高频位置编码,用于预测SDF的残差。这种结构既保证了可见区域表面的灵活性,又确保了物体不可见区域的平滑性。
实验效果
物体的三维重建效果
展示主要实验结果
与其他物体级别的三维重建方法相比,O²-Recon 能重建出更准确,更完整的三维结构,如上图所示。其中 FroDO 是基于隐空间形状编码的方法,Scan2CAD 是基于数据库检索的方法,vMap 是利用 NeRF 做表面重建的方法,MonoSDF 是场景级别的三维重建方法。
《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都有新的关卡更新。其中,怀旧大扫除是一个关卡,要求玩家在图中寻找12个与时代不相符的地方。今天,我将为大家分享《文字玩出花》怀旧大扫除关卡的通关攻略,帮助还未通过的玩家们了解具体的操作方法。
《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都有新的关卡更新。其中,怀旧大扫除是一个关卡,要求玩家在图中寻找12个与时代不相符的地方。今天,我将为大家分享《文字玩出花》怀旧大扫除关卡的通关攻略,帮助还未通过的玩家们了解具体的操作方法。
《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都有新的关卡更新。其中,怀旧大扫除是一个关卡,要求玩家在图中寻找12个与时代不相符的地方。今天,我将为大家分享《文字玩出花》怀旧大扫除关卡的通关攻略,帮助还未通过的玩家们了解具体的操作方法。
《编辑位置的重建》是一款备受欢迎的文字游戏,它提供了一个编辑物体位置的功能。这个功能可以让玩家重新调整物体的位置,以达到更好的效果。例如,在游戏中,如果玩家觉得某个物体的位置不够理想,他们可以使用编辑功能将其移动到更合适的位置。这样一来,玩家就能够更好地享受游戏,并获得更高的分数。编辑位置的重建功能不仅提供了娱乐性,还可以培养玩家的观察力和创造力。如果你喜欢文字游戏,并且对编辑物体位置感兴趣,那么这款游戏一定会让你感到满意。快来试试吧!
由于 O²-Recon 重建出的物体较为完整,我们可以对这些物体做大幅度的旋转或平移,在编辑位置之后,从新的角度观察这些物体,其表面质量仍然不错,如下图所示。
在编辑之前,这些物体在原场景中的位置下:
多物体《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都有新的关卡更新。其中,怀旧大扫除是一个关卡,要求玩家在图中寻找12个与时代不相符的地方。今天,我将为大家分享《文字玩出花》怀旧大扫除关卡的通关攻略,帮助还未通过的玩家们了解具体的操作方法。
在编辑之后,这些物体在新的位置下:
多物体《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都有新的关卡更新。其中,怀旧大扫除是一个关卡,要求玩家在图中寻找12个与时代不相符的地方。今天,我将为大家分享《文字玩出花》怀旧大扫除关卡的通关攻略,帮助还未通过的玩家们了解具体的操作方法。
总结
本文提出了 O²-Recon 方法,来利用预训练的 2D 扩散模型重建场景中被遮挡物体的完整 3D 几何形状。研究者利用扩散模型对多视角 2D 图像中的遮挡部分进行补全,并从补全后的图像利用神经隐式表面重建 3D 物体。为了防止 Mask 的不一致性,研究者采用了一种人机协同策略,通过少量人机交互生成高质量的多角度 Mask,有效地引导 2D 图像补全过程。在神经隐式表面的优化过程中,研究者设计了一个级联的网络架构来保证 SDF 的平滑性,并利用预训练的 CLIP 模型通过语义一致性损失监督新视角。研究者在 ScanNet 数据集上的实验证明,O²-Recon 能够为任意类别的被遮挡物体重建出精确完整的 3D 表面。这些重建出的完整 3D 物体支持进一步的编辑操作,如大范围旋转和平移。
理论要掌握,实操不能落!以上关于《清华大学提出三维重建的新方法:O²-Recon,用2D扩散模型补全残缺的3D物体》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- Pangu-Agent的五个创新特性

- 下一篇
- 三星最新平板曝光:Galaxy Tab Active5 引领科技潮流
-
- 科技周边 · 人工智能 | 50分钟前 | 即梦AI会员升级 即梦AI成长体系
- 即梦ai会员升级攻略成长体系详解
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 50分钟前 |
- 2025年4月中国车企销量排名:大众独跌
- 462浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 2026款丰田bZ北美亮相,bZ4X将退市
- 385浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦ai水印设置教程与添加技巧
- 440浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- AI修复老照片,轻松搞定证件照攻略
- 427浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 | 字节跳动 数据中心
- 字节跳动计划在巴西建数据中心
- 345浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- UFO²—微软新推Windows桌面Agent
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- Pad.ws—AI开发神器,白板与代码编辑器完美融合
- 328浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 3次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 3次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 26次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 24次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 51次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览