当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 多样风格的VCT引导，一张图片搞定，让你轻松实现

多样风格的VCT引导，一张图片搞定，让你轻松实现

来源：51CTO.COM 2023-08-22 15:30:42 0浏览收藏

今天golang学习网给大家带来了《多样风格的VCT引导，一张图片搞定，让你轻松实现》，其中涉及到的知识点包括等等，无论你是小白还是老手，都适合看一看哦~有好的建议也欢迎大家在评论留言，若是看完有所收获，也希望大家能多多点赞支持呀！一起加油学习~

近年来，图像生成技术取得了很多关键性突破。特别是自从DALLE2、Stable Diffusion等大模型发布以来，文本生成图像技术逐渐成熟，高质量的图像生成有了广阔的实用场景。然而，对于已有图片的细化编辑依旧是一个难题

一方面，由于文本描述的局限性，现有的高质量文生图模型，只能利用文本对图片进行描述性的编辑，而对于某些具体效果，文本是难以描述的；另一方面，在实际应用场景中，图像细化编辑任务往往只有少量的参考图片，这让很多需要大量数据进行训练的方案，在少量数据，特别是只有一张参考图像的情况下，难以发挥作用。

最近，来自网易互娱 AI Lab 的研究人员提出了一种基于单张图像引导的图像到图像编辑方案，给定单张参考图像，即可把参考图中的物体或风格迁移到源图像，同时不改变源图像的整体结构。研究论文已被 ICCV 2023 接收，相关代码已开源。

论文地址：https://arxiv.org/abs/2307.14352
代码地址：https://github.com/CrystalNeuro/visual-concept-translator

让我们先来看一组图，感受一下它的效果。

多样风格的VCT引导，一张图片搞定，让你轻松实现

论文效果图：每组图片的左上角是源图，左下角是参考图，右侧是生成的结果图

主体框架

论文作者提出了一种基于反演-融合（Inversion-Fusion）的图像编辑框架 ——VCT（visual concept translator，视觉概念转换器）。如下图所示，VCT 的整体框架包括两个过程：内容-概念反演过程（Content-concept Inversion）和内容-概念融合过程（Content-concept Fusion）。内容 - 概念反演过程通过两种不同的反演算法，分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量；内容-概念融合过程则将结构信息和语义信息的隐向量进行融合，生成最后的结果。

多样风格的VCT引导，一张图片搞定，让你轻松实现

需要重写的内容是：论文主体框架

值得一提的是，在近年来的生成对抗网络（GAN）领域中，反演方法已经广泛应用，并在许多图像生成任务上取得了显著的效果【1】。GAN重写内容时，需要将原文改写成中文，不需要出现原句可以将一张图片映射到训练过的GAN生成器的隐藏空间中，并通过对隐藏空间的控制来实现编辑的目的。这种反演方案可以充分利用预训练生成模型的生成能力。本研究实际上是将GAN重写内容时，需要将原文改写成中文，不需要出现原句应用到以扩散模型为先验的基于图像引导的图像编辑任务中

多样风格的VCT引导，一张图片搞定，让你轻松实现

重写内容时，需要将原文改写成中文，不需要出现原句

方法介绍

基于反演的思路，VCT 设计了一个双分支的扩散过程，其包含一个内容重建的分支 B* 和一个用于编辑的主分支 B。它们从同一个从 DDIM 反演（DDIM Inversion^【2】，一种利用扩散模型从图像计算噪声的算法）获得的噪声 xT 出发，分别用于内容重建和内容编辑。论文采用的预训练模型为隐向量扩散模型（Latent Diffusion Models，简称 LDM），扩散过程发生在隐向量空间 z 空间中，双分支过程可表示为：

多样风格的VCT引导，一张图片搞定，让你轻松实现

双分支扩散过程

内容重建分支 B* 学习 T 个内容特征向量多样风格的VCT引导，一张图片搞定，让你轻松实现，用于还原原图的结构信息，并通过软注意力控制（soft attention control）的方案，将结构信息传递给编辑主分支 B。软注意力控制方案借鉴了谷歌的 prompt2prompt【3】工作，公式为：

多样风格的VCT引导，一张图片搞定，让你轻松实现

即当扩散模型运行步数在一定区间时，将编辑主分支的注意力特征图替换内容重建分支的特征图，实现对生成图片的结构控制。编辑主分支 B 则融合从原图像学习的内容特征向量多样风格的VCT引导，一张图片搞定，让你轻松实现和从参考图像学习的概念特征向量，生成编辑的图片。

多样风格的VCT引导，一张图片搞定，让你轻松实现

噪声空间 ( 多样风格的VCT引导，一张图片搞定，让你轻松实现空间) 融合

在扩散模型的每一步，特征向量的融合都发生在噪声空间空间，是特征向量输入扩散模型之后预测的噪声的加权。内容重建分支的特征混合发生在内容特征向量多样风格的VCT引导，一张图片搞定，让你轻松实现和空文本向量上，与免分类器（Classifier-free）扩散引导【4】的形式一致：

多样风格的VCT引导，一张图片搞定，让你轻松实现

编辑主分支的混合是内容特征向量多样风格的VCT引导，一张图片搞定，让你轻松实现和概念特征向量的混合，为

多样风格的VCT引导，一张图片搞定，让你轻松实现

至此，研究的关键在于如何从单张源图片获取结构信息的特征向量多样风格的VCT引导，一张图片搞定，让你轻松实现，和从单张参考图片获取概念信息的特征向量。文章分别通过两个不同的反演方案实现这一目的。

为了复原源图片，文章参考 NULL-text【5】优化的方案，学习 T 个阶段的特征向量去匹配拟合源图像。但与 NULL-text 优化空文本向量去拟合 DDIM 路径不同的是，本文通过优化源图片特征向量，去直接拟合估计的干净特征向量，拟合公式为：

多样风格的VCT引导，一张图片搞定，让你轻松实现

与学习结构信息不同的是，参考图像中的概念信息需要用单一高度概括的特征向量来表示，扩散模型的 T 个阶段共用一个概念特征向量多样风格的VCT引导，一张图片搞定，让你轻松实现。文章优化了现有的反演方案 Textual Inversion【6】和 DreamArtist【7】。其采用一个多概念特征向量来表示参考图像的内容，损失函数包含一项扩散模型的噪声预估项和在隐向量空间的预估重建损失项：

多样风格的VCT引导，一张图片搞定，让你轻松实现

实验结果

文章在主体替换和风格化任务上进行了实验，可以在较好地保持源图片的结构信息的情况下，将内容变成参考图片的主体或风格。

多样风格的VCT引导，一张图片搞定，让你轻松实现

重写后的内容：实验效果的论文

相较于以往的方案，这篇文章提出的VCT框架具有以下优势：

（1）应用泛化性：与以往的基于图像引导的图像编辑任务相比，VCT 不需要大量的数据进行训练，且生成质量和泛化性更好。其基于反演的思路，以在开放世界数据预训练好的高质量文生图模型为基础，实际应用时，只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。

（2）视觉准确性：相较于近期文字编辑图像的方案，VCT 利用图片进行参考引导。图片参考相比于文字描述，可以更加准确地实现对图片的编辑。下图展示了 VCT 与其它方案的对比结果：

多样风格的VCT引导，一张图片搞定，让你轻松实现

主体替换任务的效果进行对比

多样风格的VCT引导，一张图片搞定，让你轻松实现

风格迁移任务对比效果

（3）不需要额外信息：相较于近期的一些需要添加额外控制信息（如：遮罩图或深度图）等方案来进行引导控制的方案，VCT 直接从源图像和参考图像学习结构信息和语义信息来进行融合生成，下图是一些对比结果。其中，Paint-by-example 通过提供一个源图像的遮罩图，来将对应的物体换成参考图的物体；Controlnet 通过线稿图、深度图等控制生成的结果；而 VCT 则直接从源图像和参考图像，学习结构信息和内容信息融合成目标图像，不需要额外的限制。

多样风格的VCT引导，一张图片搞定，让你轻松实现

基于图像引导的图像编辑方案的对比效果

网易互娱 AI Lab

网易互娱AI实验室成立于2017年，隶属于网易互动娱乐事业群，是游戏行业领先的人工智能实验室。实验室专注于游戏场景下的计算机视觉、语音和自然语言处理，以及强化学习等技术的研究和应用。旨在通过AI技术提升网易互娱旗下热门游戏和产品的技术水平。目前，该技术已经应用于多款热门游戏，如《梦幻西游》、《哈利波特：魔法觉醒》、《阴阳师》、《大话西游》等

文中关于图像,研究的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《多样风格的VCT引导，一张图片搞定，让你轻松实现》文章吧，也可关注golang学习网公众号了解相关技术文章。

图像研究

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除