当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

来源：51CTO.COM 2023-04-17 20:46:53 0浏览收藏

编程并不是一个机械性的工作，而是需要有思考，有创新的工作，语法是固定的，但解决问题的思路则是依靠人的思维，这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need》，文章讲解的知识点主要包括，如果你对科技周边方面的知识点感兴趣，就不要错过golang学习网，在这可以对大家的知识积累有所帮助，助力开发能力的提升。

许多内容制作项目需要将简单的草图转换为逼真的图片，这就涉及图像到图像的转换（image-to-image translation），它使用深度生成模型学习给定输入的自然图片的条件分布。

图像到图像转换的基本概念是利用预训练的神经网络来捕捉自然图片流形（manifold）。图像转换类似于遍历流形并定位可行的输入语义点。系统使用许多图片对合成网络进行预训练，以从其潜在空间的任何采样中提供可靠的输出。通过预训练的合成网络，下游训练将用户输入调整为模型的潜在表征。

多年来，我们已经看到许多特定于任务的方法达到了 SOTA 水平，但目前的解决方案还是难以创建用于实际使用的高保真图片。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

在最近的一篇论文中，香港科技大学和微软亚洲研究院的研究者认为，对于图像到图像的转换，预训练才是 All you need。以往方法需要专门的架构设计，并从头开始训练单个转换模型，因而难以高质量地生成复杂场景，尤其是在配对训练数据不充足的情况下。

因此，研究者将每个图像到图像的转换问题视为下游任务，并引入了一个简单通用框架，该框架采用预训练的扩散模型来适应各种图像到图像的转换。他们将提出的预训练图像到图像转换模型称为 PITI（pretraining-based image-to-image translation）。此外，研究者还提出用对抗训练来增强扩散模型训练中的纹理合成，并与归一化指导采样结合以提升生成质量。

最后，研究者在 ADE20K、COCO-Stuff 和 DIODE 等具有挑战性的基准上对各种任务进行了广泛的实证比较，表明 PITI 合成的图像显示出了前所未有的真实感和忠实度。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

论文链接：https://arxiv.org/pdf/2205.12952.pdf
项目主页：https://tengfei-wang.github.io/PITI/index.html

GAN 已死，扩散模型永存

作者没有使用在特定领域表现最佳的 GAN，而是使用了扩散模型，合成了广泛多样的图片。其次，它应该从两种类型的潜在代码中生成图片：一种描述视觉语义，另一种针对图像波动进行调整。语义、低维潜在对于下游任务至关重要。否则，就不可能将模态输入转换为复杂的潜在空间。鉴于此，他们使用 GLIDE 作为预训练的生成先验，这是一种可以生成不同图片的数据驱动模型。由于 GLIDE 使用了潜在的文本，它允许语义潜在空间。

扩散和基于分数的方法表现出跨基准的生成质量。在类条件 ImageNet 上，这些模型在视觉质量和采样多样性方面与基于 GAN 的方法相媲美。最近，用大规模文本图像配对训练的扩散模型显示出惊人的能力。训练有素的扩散模型可以为合成提供通用的生成先验。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need