3D资产生成领域福音:自动化所、北邮团队联合打造材质生成新范式
对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《3D资产生成领域福音:自动化所、北邮团队联合打造材质生成新范式》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在今天的数字化时代,3D 资产在元宇宙的建构、数字孪生的实现以及虚拟现实和增强现实的应用中扮演着重要角色,促进了技术创新和用户体验的提升。
现有的3D资产生成方法通常利用生成式模型基于空间变化双向反射分布函数(SVBRDF, Spatially Varying Bidirectional Reflectance Distribution Function)在预设光照条件下推断表面位置的材质属性。然而,这些方法很少考虑到人们对身边常见物体的表面材质认知构建出的强大且丰富的先验知识(例如汽车轮胎应为外缘的橡胶胎面包裹着金属轮毂),且忽略了材质应该与物体本身的 RGB 色彩进行解耦。 Without changing the original meaning, the existing 3D asset generation methods often utilize generative models based on spatially varying bidirectional reflectance distribution function (SVBRDF) to infer material properties given the surface positions under predefined lighting conditions. However, these methods rarely take into account the strong and rich prior knowledge that people have in constructing the surface materials of common objects around us (such as the fact that car tires should have rubber tread covering metal rims on the outer edge), and they disregard the decoupling between material and the RGB color of objects themselves.
因此,如何将人类对物体表面材质的先验知识有效地融入到材质生成过程中,从而提高现有3D资产的整体质量,成为了当前研究的重要课题。

对于这一问题,近日,中国科学院自动化研究所、北京邮电大学及香港理工大学等京港两地的研究团队发布了名为《MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets》的论文,构造了首个针对多种类复杂材质物体的 2D 材质分割数据集 MIO,其中包含了多种语义类别下的、单一物体的、各个相机角度的像素级材质标签。该研究提出了一种能够利用 2D 语义先验在 UV 空间中推断出 3D 资产表面材质的材质生成方案 —— MaterialSeg3D。
论文:https://arxiv.org/pdf/2404.13923
代码地址:https://github.com/PROPHETE-pro/MaterialSeg3D_
3D 建模师通常根据生活常识或真实世界的物体原型来定义资产表面的材质。相比之下,基于生成式模型构建 3D 资产的方法使用 SVBRDF 来推断材质信息,但由于缺乏准确的高质量 3D 资产样本,这些方法难以生成高泛化性和高保真度的物理材质通道信息。此外,这类方法也未能利用公开网站中的海量 Web Image 数据来丰富物体表面材质信息的先验知识。
因此,本文聚焦于如何将 2D 图片中关于材质的先验知识引入解决 3D 资产材质信息定义的任务中。
MIO 数据集
这篇论文首先尝试从现有 3D 资产数据集中提取材质分类的先验知识,但由于数据集样本过少且风格单一,分割模型难以学习到正确的先验知识。
相比 3D 资产,2D 图像则更为广泛地存在于公开网站或数据集上。然而,现有的带注释 2D 图像数据集与 3D 资产渲染图的分布存在较大差距,无法直接提供足够的材质先验知识。
因此,本文构建了一个定制数据集 MIO(Materialized Individual Objects),是目前最大的多类别单一复杂材质资产的 2D 材质分割数据集,包含了从各种相机角度采样的图像,并由专业团队精确注释。
材质类注释和 PBR 材质球体映射的可视化示例。
在构造该数据集时,本文遵循以下规则:
每张采样图像中只包含一个突出的前景物体
收集相似数量的真实场景 2D 图片和 3D 资产渲染图
收集各个相机角度的图像样本,包括顶视图和仰视图等特殊视角
MIO 数据集的独到之处在于,它不仅仅构造了每种材质类别的像素级标签,还单独构建了每个材质类别与 PBR 材质取值间的一一映射关系。这些映射关系是由 9 名专业 3D 建模师经过讨论后确定的。本文从公共材质库收集了超过 1000 个真实的 PBR 材质球作为备选材质,并依据建模师的专业知识进行筛选与指定,最终确定了 14 个材质类别并将其与 PBR 材质的映射关系作为数据集的标注空间。
MIO 数据集共包含 23,062 张单个复杂物体的多视角图像,分为 5 个大的元类:家具、汽车、建筑、乐器和植物,具体又可以分为 20 种具体的类别,特别值得一提的是,MIO 数据集中包含大约 4000 张俯视图图像,提供了在现有 2D 数据集中很少出现的独特视角。
MaterialSeg3D
有了 MIO 数据集作为可靠的材质信息先验知识来源,这篇论文随后提出了名为 MaterialSeg3D 的全新 3D 资产表面材质预测新范式,为给定的资产表面生成合理的 PBR 材质,从而能够真实地模拟物体的物理特性,包括光照、阴影和反射,使 3D 物体在各种环境下都表现出高度的真实性和一致性,为现有 3D 资产缺乏材质信息的问题提出有效解决方案。
MaterialSeg3D 整个处理流程中包括三个部分:3D 资产的多视图渲染、多视图下的材质预测和 3D 材质 UV 生成。在多视图渲染阶段,确定了俯视图、侧视图和 12 个环绕角度的相机姿势,以及随机的俯仰角度,生成 2D 渲染图像。在材质预测阶段,利用基于 MIO 数据集训练的材质分割模型,对多视角渲染图进行像素级的材质标签预测。在材质 UV 生成阶段,将材质预测结果映射到临时 UV 图上,通过加权投票机制处理得到最终的材质标签 UV,并转化为 PBR 材质贴图。
可视化的效果与实验
为评估 MaterialSeg3D 的有效性,本文进行了与近期相似工作的定量与定性实验分析,重点关注单图像到 3D 资产的生成方法、纹理生成以及公共 3D 资产三个方面。对于单图像到 3D 资产的生成方法,与 Wonder3D、TripoSR 和 OpenLRM 进行了比较,这些方法将资产的某一参照视图作为输入,直接生成具有纹理特征的 3D 对象。通过可视化图片观察到,MaterialSeg3D 处理后的资产在渲染的真实性方面相较之前的工作有显著改善。论文还比较了现有的纹理生成方法,如 Fantasia3D、Text2Tex 以及 Meshy 网站提供的在线功能,这些方法可以根据文本提示信息生成纹理结果。
在此基础上,MaterialSeg3D 在不同的光照条件下能够生成精确的 PBR 材质信息,使渲染效果更加真实。
定量实验采用 CLIP Similarity、PSNR、SSIM 作为评价指标,选择 Objaverse-1.0 数据集中的资产作为测试样本,并随机选择三个相机角度作为新视图。
这些实验证明了 MaterialSeg3D 的有效性。其能够生成公共 3D 资产缺失的 PBR 材质信息,为建模师和后续的研究工作提供更多优质资产。
总结与展望
这篇论文针对 3D 资产表面材质生成问题进行了探索,构建了定制的 2D 材质分割数据集 MIO。在这一可靠数据集的支持下,提出了新的 3D 资产表面材质生成范式 MaterialSeg3D,能够为单个 3D 资产生成可解耦的独立 PBR 材质信息,显著增强了现有 3D 资产在不同光照条件下的渲染真实性和合理性。
作者指出,未来的研究将专注于扩展数据集中物体元类的数量、通过生成伪标签扩大数据集规模以及对材质分割模型进行自训练,以便该生成范式能够直接应用于绝大多数种类的 3D 资产。
今天关于《3D资产生成领域福音:自动化所、北邮团队联合打造材质生成新范式》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于工程的内容请关注golang学习网公众号!

- 上一篇
- HPE Aruba Networking推出全新AI网络安全和可视化产品高效应对生成式AI安全威胁

- 下一篇
- 通过强化学习策略进行特征选择
-
- 科技周边 · 人工智能 | 17分钟前 |
- 东风猛士M817首秀搭载华为乾崑ADS4
- 353浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- Kimi-Audio震撼发布MoonshotAI开源音频模型
- 300浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- OpenAIo4-mini小型推理模型震撼上市
- 128浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- AvatarFX—Character.AI震撼推出AI视频生成模型
- 448浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 | 低功耗 LTPO vivoX200Ultra 显示技术 BOE
- BOELTPO助力vivox200Ultra,超低功耗影像新体验
- 142浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 23次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 36次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 37次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 47次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 40次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览