上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」
从现在开始,努力学习吧!本文《上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
随着大型语言模型(LLM)、扩散(Diffusion)等技术的发展,ChatGPT、Midjourney等产品的诞生掀起了新一波的AI热潮,生成式AI也成为备受关注的话题。
与文本和图像不同,3D生成仍处于技术探索阶段。
2022年年底,Google、NVIDIA和微软相继推出了自己的3D生成工作,但大多基于先进的神经辐射场(NeRF)隐式表达,与工业界3D软件如Unity、Unreal Engine和Maya等的渲染管线不兼容。
即使通过传统方案将其转换为Mesh表达的几何和颜色贴图,也会造成精度不足和视觉质量下降,不能直接应用于影视制作和游戏生产。
项目网站:https://sites.google.com/view/dreamface
论文地址:https://arxiv.org/abs/2304.03117
Web Demo:https://hyperhuman.top
HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
为了解决这些问题,来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架。
该框架引入符合CG制作标准的外部数据集(包含几何和PBR材质),可以根据文本直接生成符合该标准的3D资产,是首个支持Production-Ready 3D资产生成的框架。
为了实现文本生成可驱动的3D超写实数字人,该团队将这个框架与产品级3D数字人数据集相结合。这项工作已经被计算机图形领域国际顶级期刊Transactions on Graphics接收,并将在国际计算机图形顶级会议SIGGRAPH 2023上展示。
DreamFace主要包括三个模块,几何体生成,基于物理的材质扩散和动画能力生成。
相比先前的3D生成工作,这项工作的主要贡献包括:
· 提出了DreamFace这一新颖的生成方案,将最近的视觉-语言模型与可动画和物理材质的面部资产相结合,通过渐进式学习来分离几何、外观和动画能力。
· 引入了双通道外观生成的设计,将一种新颖的材质扩散模型与预训练模型相结合,同时在潜在空间和图像空间进行两阶段优化。
· 使用BlendShapes或生成的Personalized BlendShapes的面部资产具备动画能力,并进一步展示了DreamFace在自然人物设计方面的应用。
几何生成
几何体生成模块可以根据文本提示生成与之一致的几何模型。然而,在人脸生成方面,这可能难以监督和收敛。
因此,DreamFace提出了一个基于CLIP(Contrastive Language-Image Pre-Training)的选择框架,首先从对人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型,然后雕刻几何细节,使头部模型更符合文本提示。
根据输入提示,DreamFace利用CLIP模型选择匹配得分最高的粗略几何候选项。接下来,DreamFace使用隐式扩散模型(LDM)在随机视角和光照条件下对渲染图像进行得分蒸馏采样(SDS)处理。
这使得DreamFace可以通过顶点位移和详细的法线贴图向粗略几何模型添加面部细节,从而得到高度精细的几何体。
与头部模型类似,DreamFace还基于该框架进行发型和颜色的选择。
基于物理的材质扩散生成
基于物理的材质扩散模块旨在预测与预测几何体和文本提示一致的面部纹理。
首先,DreamFace将预先训练的LDM在收集的大规模UV材质数据集上微调,得到两个LDM扩散模型。
DreamFace采用了一种联合训练方案,协调两个扩散过程,一个用于直接去噪UV纹理贴图,另一个用于监督渲染图像,以确保面部UV贴图和渲染图像的正确形成与文本提示一致。
为了减少生成时间,DreamFace采用了一个粗糙纹理潜在扩散阶段,为细节纹理生成提供先验潜在。
为了确保所创建的纹理地图不含有不良特征或照明情况,同时仍保持多样性,设计了一种提示学习策略。
团队利用两种方法生成高质量的漫反射贴图:
(1)Prompt Tuning。与手工制作的特定领域文本提示不同,DreamFace将两个特定领域的连续文本提示 Cd 和 Cu 与相应的文本提示结合起来,这将在U-Net去噪器训练期间进行优化,以避免不稳定和耗时的手工撰写提示。
(2)非面部区域遮罩。LDM去噪过程将额外地受到非面部区域遮罩的限制,以确保生成的漫反射贴图不含有任何不需要的元素。
作为最后一步,DreamFace应用超分辨率模块生成4K基于物理的纹理,以进行高质量渲染。
DreamFace框架在名人生成,根据描述生成角色上都取得了相当不错的效果,在User Study中获得了远超先前工作的成绩。相比先前的工作,在运行时间上也具备明显的优势。
除此之外,DreamFace还支持使用提示和草图进行纹理编辑。通过直接使用微调的纹理LDM和提示,可以实现全局的编辑效果,如老化和化妆。通过进一步结合掩模或草图,可以创建各种效果,如纹身、胡须和胎记。
动画能力生成
DreamFace生成的模型具备动画能力。与基于BlendShapes的方法不同,DreamFace的神经面部动画方法通过预测独特的变形来为生成的静息(Neutral)模型赋予动画效果,从而产生个性化的动画。
首先,训练一个几何生成器,学习表情的潜在空间,其中解码器被扩展为以中性几何形状为条件。接着,进一步训练表情编码器,从RGB图像中提取表情特征。因此,DreamFace能够通过使用单目RGB图像以中性几何形状为条件来生成个性化的动画。
与使用通用BlendShapes进行表情控制的DECA相比,DreamFace的框架提供了细致的表情细节,并且能够精细地捕捉表演。
结论
本文介绍了DreamFace,一种文本指导的渐进式3D生成框架,它结合了最新的视觉-语言模型、隐式扩散模型,以及基于物理的材质扩散技术。
DreamFace的主要创新包括几何体生成、基于物理的材质扩散生成和动画能力生成。与传统的3D生成方法相比,DreamFace具有更高的准确性、更快的运行速度和较好的CG管线兼容性。
DreamFace的渐进式生成框架为解决复杂的3D生成任务提供了一种有效的解决方案,有望推动更多类似的研究和技术发展。
此外,基于物理的材质扩散生成和动画能力生成将推动3D生成技术在影视制作、游戏开发和其他相关行业的应用。
今天关于《上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- GPT充当大脑,指挥多个模型协作完成各类任务,通用系统AutoML-GPT来了

- 下一篇
- Golang函数的指针参数使用技巧
-
- 科技周边 · 人工智能 | 1小时前 |
- Llama4震撼发布,Meta开源多模态AI霸主
- 417浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | 深蓝汽车
- 深蓝汽车4月销量2.01万辆,同比增58%
- 170浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 小鹏智驾辟谣回归有图方案,详解基座模型路线
- 410浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- U8L上海车展首秀,甲骨文黄金车标亮眼
- 470浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- DeepSeek-Prover-V2发布:开源数学推理大模型
- 196浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 | 自动化 挑战 豆包AI智能体生成器 定制AI 智能决策
- 豆包AI智能体生成器,轻松打造你的专属AI
- 461浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 14次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 12次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 11次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 16次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 17次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览