一块GPU,每秒20个模型!英伟达新玩具用GET3D造元宇宙
偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《一块GPU,每秒20个模型!英伟达新玩具用GET3D造元宇宙》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!
Abracadabra!
在2D生成3D模型上,英伟达亮出了自称「世界级」研究:GET3D。
通过2D图像训练后,该模型可生成具有高保真纹理和复杂几何细节的3D形状。
究竟有多厉害?
形状、纹理、材质自定义
GET3D之所以得名,是因为它能够生成显式纹理3D网格(Generate Explicit Textured 3D meshes )。
论文地址:https://arxiv.org/pdf/2209.11163.pdf
也就是说,它创建的形状是三角形网格的形式,就像纸模型一样,上面覆盖着纹理材质。
关键是,这个模型可以生成多种多样,且高质量的模型。
比如,椅子腿上的各种轮子;汽车的车轮,灯和车窗;动物的耳朵、角;摩托车的后视镜,车轮胎上的纹理;高跟鞋,人类衣服...
街道两旁的独特建筑,不同的车辆呼啸而过,还有不同的人群穿梭而过...
若想通过手动建模做出同样的3D虚拟世界非常耗时。
尽管先前的3D生成AI模型虽然比手动建模更快,但它们在生成更多丰富细节模型的能力还是欠缺。
即便是,最新的逆向渲染方法也只能基于从各个角度拍摄的2D图像生成3D对象,开发人员一次只能构建一个3D物体。
GET3D可就不一样了。
开发者可以轻松地将生成模型导入到游戏引擎、3D建模器和电影渲染器中,对它们进行编辑。
当创建者将GET3D生成的模型导出到图形应用程序,他们就可以在模型所在的场景中移动或旋转时应用逼真的照明效果。
如图所示:
另外,GET3D还可以做到文本引导形状生成。
通过使用英伟达的另一个AI工具StyleGAN-NADA,开发人员可以使用文本提示为图像添加特定的风格。
比如,可以将渲染后的汽车变成一辆烧毁的汽车或出租车
将一个普通的房子改造成砖房、着火的房子,甚至是鬼屋。
或者将老虎纹、熊猫纹的特色应用在任何动物身上...
简直就是辛普森一家的「动物森友会」...
英伟达介绍,在单个英伟达GPU上训练,GET3D每秒可以生成大约20个对象。
在此,它所学习的训练数据集越大、越多样化,输出的多样性和详细程度就越高。
英伟达称,研究团队仅用2天时间,就使用A100 GPU在大约100万张图像上训练了模型。
研究方法与过程
GET3D框架,主要作用是合成有纹理的三维形状。
生成过程分为两个部分:第一部分是几何分支,可以输出任意拓扑结构的表面网格。另一部分则是纹理分支,它会产生一个纹理场,由此可以在表面点上进行查询。
在训练过程中,一个可微分光栅化器被用来高效渲染所产生的纹理网格,并渲染成二维的高分辨率图像。整个过程是可分的,允许通过传播二维判别器的梯度,从图像中进行对抗性训练。
之后,梯度从二维判别器传播到两个发生器分支。
研究人员又进行了广泛的实验来评估该模型。他们首先将GET3D生成的三维纹理网格的质量与现有的使用ShapeNet和Turbosquid数据集生成的做比较。
接下来,研究人员根据对比结果在之后的研究中对模型进行了优化,并做了更多实验。
GET3D模型在几何形状和纹理能够实现相分离。
如图,在每一行中展示了由相同的几何隐藏代码生成的形状,同时更改了纹理代码。
在每一列中展示了由相同的纹理隐藏代码生成的形状,同时更改了几何代码。
另外,研究人员在每一行中相同的纹理隐藏代码生成的形状,从左到右插入几何隐藏代码。
并由相同的几何隐藏代码生成的形状,同时从上到下插入纹理代码。结果显示,每个插值对生成模型都是有意义的。
在每个模型的子图中,GET3D能够在所有类别的不同形状之间的生成实现平滑过渡。
在每一行中,通过添加一个小噪声来局部扰乱隐藏代码。通过这种方式,GET3D能够在局部生成外观相似但略有差异的形状。
研究人员指出,未来版本的GET3D可以使用摄像机姿态估计技术,让开发人员训练模型的现实世界的数据,而不是合成数据集。
未来,通过改进,开发人员可以在各种3D形状上一次性训练GET3D,而不需要一次在一个对象类别上训练它。
英伟达人工智能研究副总裁Sanja Fidler表示,
GET3D让我们离人工智能驱动的3D内容创作大众化又近了一步。它即时生成带纹理3D形状的能力可能会改变开发人员的游戏规则,帮助他们用各种有趣的对象快速填充虚拟世界。
作者介绍
论文一作Jun Gao是多伦多大学机器学习小组的博士生,导师是Sanja Fidler。
除了学历优异以外,他还是英伟达多伦多人工智能实验室的研究科学家。
他的研究主要集中在深度学习(DL),目标直指结构化几何表示学习。同时,他的研究还从人类对2D和3D图像、视频的感知中获得见解。
这么一位优秀的高材生,来自北京大学。他于2018年本科毕业,获得学士学位。在北大期间,他和王立威教授一同工作。
毕业后他还在斯坦福大学、MSRA和英伟达进行过实习。
Jun Gao的导师同样是业内翘楚。
Fidler是多伦多大学的副教授,Vector研究所的一名教师,同时,她还是该研究所的联合创始成员之一。
教学之外,她还是英伟达公司的人工智能研究副总裁,领导着多伦多的一个研究实验室。
在来到多伦多之前,她是芝加哥丰田技术研究所的研究助理教授。该研究所位于芝加哥大学校园内,算是个学术机构。
Fidler的研究领域集中在计算机视觉(CV)和机器学习(ML),聚焦于CV和图形学的交叉领域、三维视觉,以及三维重建与合成,还有图像注释的互动方法等等。
好了,本文到此结束,带大家了解了《一块GPU,每秒20个模型!英伟达新玩具用GET3D造元宇宙》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

- 上一篇
- 华为云与多家企业发布行动倡议:共建自动驾驶开放产业生态

- 下一篇
- 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
-
- 美好的发夹
- 很棒,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢大佬分享技术贴!
- 2023-05-08 01:47:25
-
- 专注的菠萝
- 这篇文章内容太及时了,太全面了,很好,已收藏,关注大佬了!希望大佬能多写科技周边相关的文章。
- 2023-05-05 22:18:24
-
- 甜蜜的大米
- 这篇文章出现的刚刚好,up主加油!
- 2023-05-04 12:52:16
-
- 清秀的信封
- 很详细,收藏了,感谢up主的这篇技术贴,我会继续支持!
- 2023-05-03 20:37:23
-
- 科技周边 · 人工智能 | 6秒前 |
- 豆包大模型AI设计工具怎么用?攻略详解
- 193浏览 收藏
-
- 科技周边 · 人工智能 | 10分钟前 |
- AI证件照怎么拍才符合签证要求?
- 447浏览 收藏
-
- 科技周边 · 人工智能 | 15分钟前 |
- 新势力销量排名出炉,零跑鸿蒙小鹏领跑前三
- 401浏览 收藏
-
- 科技周边 · 人工智能 | 21分钟前 |
- AI打造个人媒体平台,快速变现方法
- 386浏览 收藏
-
- 科技周边 · 人工智能 | 22分钟前 |
- Deepseek满血版联动TypinatorPro,提升文本效率
- 121浏览 收藏
-
- 科技周边 · 人工智能 | 27分钟前 |
- 通义万相2.2:阿里开源AI视频模型发布
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 28分钟前 |
- AI视频教程:普通人快速制作发布指南
- 397浏览 收藏
-
- 科技周边 · 人工智能 | 32分钟前 |
- PerplexityAI有App吗?如何下载使用?
- 501浏览 收藏
-
- 科技周边 · 人工智能 | 40分钟前 |
- Confluence集成DeepSeek,文档问答全面升级
- 474浏览 收藏
-
- 科技周边 · 人工智能 | 47分钟前 |
- 多模态AI图片识别教程图像分析全解析
- 321浏览 收藏
-
- 科技周边 · 人工智能 | 55分钟前 |
- 豆包AI如何做Python文本分析?
- 363浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 190次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 190次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 189次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 195次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 210次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览