当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 阿里Outfit Anyone让你实现无限免费换衣服,自由百变造型

阿里Outfit Anyone让你实现无限免费换衣服,自由百变造型

来源:机器之心 2023-12-26 17:36:22 0浏览 收藏

科技周边不知道大家是否熟悉?今天我将给大家介绍《阿里Outfit Anyone让你实现无限免费换衣服,自由百变造型》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

不实际试穿,就能尝试各种服饰,虚拟试衣技术让「QQ秀」升级成了真人版,为时尚行业打开了新世界的大门。

然而,现有的虚拟试衣方法在逼真性和细节上的一致性方面还存在挑战。虽然扩散模型在创造高品质和真实感图像方面表现出众,但在虚拟试衣等特定场景中,它们在维持控制力和一致性方面还有待提高。

Outfit Anyone 利用了一种创新的双流条件扩散模型,有效地解决了这些问题,能够精确地处理服装的变形效果,实现更加逼真的试穿体验。Outfit Anyone 最大的特点是其极强的适应性和广泛的应用范围,不仅能调整以适应不同的姿势和体形,无论是动画形象还是真人,都可以一键换装。现已开放试玩。

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

GitHub: https://github.com/HumanAIGC/OutfitAnyone
Project: https://humanaigc.github.io/outfit-anyone/

Demo 体验 (V0.9): 
Modelscope: https://modelscope.cn/studios/DAMOXR/OutfitAnyone/summary
Huggingface Demo: https://humanaigc.github.io/outfit-anyone/

主要方法:条件扩散网络
无限新衣服零元购,阿里Outfit Anyone实现真人百变换装
虚拟试衣任务本质是一个条件生成的任务,也就是基于给定一张服饰图片作为条件输入,控制生成服饰在人身上的试衣图片。当前的 diffusion model 在生成的可控性方面做了很多工作,比如基于 tuning-based 的方法,如 lora, dreambooth 等,可以实现通过针对某一个或几个概念的样本图片进行针对性训练,学习对应的某个 concept, 在生成的过程中可以实现对应 concept 或者物体的生成。然而这种方式以来 finetuning,计算和时间成本高,且难以扩展到多个物体的同时生成。

另外一类控制生成的方法是以 controlnet 为代表,其主要原理是通过 zero-conv 训练一个插件的网络,可以实现利用 mask,canny edge, depth 等多种信号控制最终生成图片的 layout。这种方式的最大的弊端在于控制信号与目标图像在空间上是 align 的,但服饰与控制信号和目标图像在空间分布上有较大的差异,导致无法直接使用,从而限制了其应用的拓展范围。

因此,作者提出了一种新的支持试衣功能的条件生成网络,实现服饰的形变,光照的变化,服饰新视角变化情况下的生成,同时能够保持服饰的纹理,版型,细节的一致性。

相比 lora,dreambooth 等方法的好处是,不再需要针对每个物体进行 finetuning,具有很强的泛化性,从而可以实现 zero-shot 一键试衣。

此外,为了提升试衣结果的真实性,作者提出了 refiner 网络,对服饰的细节进行提升,从而能够提升服饰的材质、色彩,使其更接近真实的试衣效果。Outfit Anyone 也支持各种复杂的服饰,多样的姿势,以及适配多种体型,使其能够满足用户多样化的试衣需求。

框架设计

近些年,虽然模型仍层出不穷,但模型设计逐渐走向同质化。主要可以分为 3 个部分:
(1)输入信号(图像 / 视频 / 文本 /timestep)转化为 embedding 参入到后续网络计算中;
(2)基础计算单元:以 Convolution Block 和 Transformer Block 构成;
(3)信息交互单元则根据 embedding 之间的不同,可以通过 spatially-aligned operation 和 non-spatially aligned operation 的多种方式实现融合。

在框架设计上,研究团队遵循简洁有效的原则,按以上的基础思路,首先确定了需要何种输入信号,并根据信号的差异化采用不同的特征交互方式。

在试衣场景中,需要 3 个控制信号:
  • 模特控制:模型提取模特 id,姿态等控制信号,实现模特的控制。
  • 服饰控制:服饰的平铺图、服饰的上身图、饰品(帽子、包、鞋子等)。
  • 图像全局控制:文本描述。

Outfit Anyone 采用了以下的控制信号植入形式:
  • 模特控制:利用 spatially aligned operation ,本身作为模特图抽取特征内容,与目标图像在空间对齐。
  • 服饰控制:本身与模特图空间不能对齐,需要进行形变操作,再通过非线性的操作进行特征融合。
  • 背景、质量等控制:利用 attention 机制实现语义层次特征与图像特征的融合。

目前,基于 Diffusion Model 的生成模型强调生成内容在语义层面的对齐性,所以常采用以 CLIP 为代表的图像语义抽取模型进行特征提取,但这对于试衣模型需要保留所输入服饰的纹理细节矛盾。因此,现有基于 CLIP 特征的试衣模型难以准确完整的还原服饰本身的特性,采用对服饰纹理细节可还原 / 生成的网络为佳。

而针对于模特相关的控制信号,在训练时,本身是输入模特图的一种抽象信号,可作为输入模特图的一个特征通道,在同一网络中,通过 Channel 维度进行信息整合,并不需要遵循 ControlNet 的设计,额外增加网络进行处理,从而一定程度简化模型结构。

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

基于以上思考,作者设计了 Outfit Anyone 的模型框架,将多种不同的输入信号,输入进两个网络流中,通过融合的方式实现可控生成。

数据

作者扩充了现有的公开服饰数据集,构建了一个大规模的虚拟试衣服饰数据集。整个数据涵盖了各种类目,包含大量高质量图片。此外,为了实现高质量的服饰还原,作者充分地整理和提取了服饰相关的材质属性等信息。
无限新衣服零元购,阿里Outfit Anyone实现真人百变换装
效果展示

1. 仅需平铺图输入,且支持单件 + 上下装成套的试衣

站在服饰商家的角度,需要以平铺图作为输入,避免需要上身图的额外要求。但这也在服饰上身后的自然度方面对算法提出了更高的要求。

Outfit Anyone 支持平铺图的输入,并且可同时支持单件或者上下搭配。模型根据模特姿势身材的不同,相应生成褶皱、光照等细节不同的服饰上身效果,从而实现百变的换装体验。

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

2. 非常规服饰试衣

在时尚浪潮的前沿,除了常规版型的服饰,还有更多有创意的新奇服饰。Outfit Anyone 对这类服饰也能提供很好的支持。

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

3. 细节一致性提升,可以保证服饰细节的一致性

为了使 Outfit Anyone 所生成的试衣图片达到摄影级别的质量,作者进一步基于试衣模型结构开发了 refiner。可以在保留服饰基本 ID 的基础上,显著提升服饰的材料质感,模特的皮肤真实度。
无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

好了,本文到此结束,带大家了解了《阿里Outfit Anyone让你实现无限免费换衣服,自由百变造型》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
vivo X100 Pro+: 预计明年4月发布,配备2K屏幕和骁龙8 Gen 3处理器vivo X100 Pro+: 预计明年4月发布,配备2K屏幕和骁龙8 Gen 3处理器
上一篇
vivo X100 Pro+: 预计明年4月发布,配备2K屏幕和骁龙8 Gen 3处理器
人工智能对商业建筑能量利用的影响
下一篇
人工智能对商业建筑能量利用的影响
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    24次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    19次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    21次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    21次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    23次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码