当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 对于图像翻译,最具前途的五个 AI 模型是什么?

对于图像翻译,最具前途的五个 AI 模型是什么?

来源:51CTO.COM 2023-04-29 19:54:46 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《对于图像翻译,最具前途的五个 AI 模型是什么?》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

图像到图像的翻译

根据Solanki、Nayyar和Naved在论文中提供的定义,图像到图像的翻译是将图像从一个域转换到另一个域的过程,其目标是学习输入图像和输出图像之间的映射。

换句话说,我们希望模型能够通过学习映射函数f将一张图像a转换成另一张图像b。

对于图像翻译,最具前途的五个 AI 模型是什么?

有人可能会想,这些模型有什么用,它们在人工智能世界有什么关联。应用程序往往有很多,这不仅仅限于艺术或平面设计领域。例如,能够拍摄图像并将其转换为另一个图像来创建合成数据(如分割图像),这对训练自动驾驶汽车模型非常有用。另一个经过测试的应用程序是地图设计,其中模型能够执行两种转换(卫星视图到地图,反之亦然)。图像翻转换型也可以应用于建筑,模型可以就如何完成未完成的项目提出建议。

图像转换最引人注目的应用之一是将简单的绘图转换为美丽的风景或绘画。

用于图像翻译的5种最有前途的AI模型

在过去几年中,已经开发出几种方法,通过利用生成模型来解决图像到图像转换的问题。最常用的方法基于以下体系结构:

  • 生成对抗网络(GAN)
  • 变分自编码器(VAE)
  • 扩散模型(DVAE)
  • Transformers

Pix2Pix

Pix2Pix是一个基于条件GAN的模型。这意味着它的架构是由Generator网络(G)和Discriminator (D)组成的。这两个网络都是在对抗性游戏中训练的,其中G的目标是生成与数据集相似的新图像,而D必须决定图像是生成的(假)还是来自数据集(真)。

Pix2Pix和其他GAN模型之间的主要区别是:(1)第一个Generator将图像作为输入来启动生成过程,而普通GAN使用随机噪声;(2)Pix2Pix是一个完全监督模型,这意味着数据集由来自两个域的成对图像组成。

论文中描述的体系结构是由一个用于生成器的U-Net和用于Discriminator的Markovian Discriminator或Patch Discriminator定义的:

  • U-Net:由两个模块组成(下采样和上采样)。使用卷积层将输入图像简化为一组更小的图像(称为特征映射),然后通过转置卷积进行上采样,直到达到原始的输入维度。下采样和上采样之间存在skip connections。
  • Patch Discriminator:卷积网络,它的输出是一个矩阵,其中每个元素都是图像的一个部分(patch)的评估结果。它包括生成的图像和真实图像之间的L1距离,以确保生成器学会在给定输入图像的情况下映射正确的函数。也称为马尔可夫,因为它依赖于来自不同patch的像素是独立的假设。

对于图像翻译,最具前途的五个 AI 模型是什么?

Pix2Pix结果

无监督图像到图像翻译(UNIT)

在Pix2Pix中,训练过程是完全监督的(即我们需要成对的图像输入)。UNIT方法的目的是学习将图像A映射到图像B的函数,而不需要训练两个成对的图像。

该模型从假设两个域(A和B)共享一个共同的潜在空间(Z)开始。直观地说,我们可以将这个潜在空间视为图像域A和B之间的中间阶段。因此,使用从绘画到图像的例子,我们可以使用相同的潜在空间向后生成绘画图像或向前看到令人惊叹的图像(见图X)。

图中:(a)共享潜空间。(b)UNIT架构:X1是一幅图画,X2是一幅美丽的风景;E1, E2是编码器,从两个域(绘图和风景)提取图像,并将它们映射到共享潜在空间Z;G1, G2发生器,D1, D2判别器。虚线表示网络之间的共享层。

UNIT模型是在一对VAE-GAN架构下开发的(见上图),其中编码器的最后一层(E1, E2)和生成器的第一层(G1, G2)是共享的。

对于图像翻译,最具前途的五个 AI 模型是什么?

UNIT结果

Palette

Palette是加拿大谷歌研究小组开发的条件扩散模型。该模型经过训练,可执行与图像转换相关的4项不同任务,从而获得高质量的结果:

(i)着色:为灰度图像添加颜色

(ii)Inpainting:用逼真的内容填充用户指定的图像区域

(iii)Uncropping:放大图像帧

(iv)JPEG恢复:恢复损坏的JPEG图像

在论文中,作者探讨了多任务通用模型和多个专门模型之间的区别,两者都经过一百万次迭代训练。该模型的体系结构基于Dhariwal和Nichol 2021的类条件U-Net模型,使用1024个批次大小的图像进行1M的训练步骤。将噪声计划作为超参数进行预处理和调整,使用不同的计划进行训练和预测。

对于图像翻译,最具前途的五个 AI 模型是什么?

Palette结果

Vision Transformers (ViT)

请注意,尽管以下两个模型并不是专门为图像转换设计的,但它们在将诸如transformers等功能强大的模型引入计算机视觉领域方面迈出了明显的一步。

Vision Transformers(ViT)是对Transformers架构的修改(Vaswani等人,2017年),是为图像分类而开发的。该模型将图像作为输入,并输出属于每个已定义类的概率。

主要问题在于Transformers被设计成以一维序列作为输入,而不是二维矩阵。为了进行排序,作者建议将图像分割为小块,将图像视为序列(或NLP中的句子),小块视为标记(或单词)。

简单总结一下,我们可以将整个过程分为3个阶段:

1)嵌入:将小块拆分并flatten→应用线性变换→添加类标记(此标记将作为分类时考虑的图像摘要)→位置嵌入

2)Transformer-Encoder块:将嵌入的patches放入一系列变transformer encoder块中。注意力机制会学习关注图像的哪些部分。

3)分类MLP头:将类令牌通过MLP头,该MLP头输出图像属于每个类的最终概率。

使用ViT的优点:排列不变。与CNN相比,Transformer不受图像中的平移(元素位置的变化)的影响。

缺点:需要大量标记数据进行训练(至少14M的图像)

TransGAN

TransGAN是一个基于transform的GAN模型,设计用于图像生成,不使用任何卷积层。相反,生成器和鉴别器是由一系列由上采样和下采样块连接的Transformer组成的。

生成器的正向过程取一个一维数组的随机噪声样本,并将其通过MLP。直观地说,我们可以把数组想象成一个句子,像素的值想象成单词(请注意,一个由64个元素组成的数组可以重塑为1个通道的8✕8的图像)接下来,作者应用了一系列Transformer块,每个块后面都有一个上采样层,使数组(图像)的大小增加一倍。

TransGAN的一个关键特征是Grid-self - attention。当达到高维图像(即非常长的数组32✕32 = 1024)时,应用transformer可能导致自注意力机制的爆炸性成本,因为您需要将1024数组的每个像素与所有255个可能的像素进行比较(RGB维度)。因此,网格自注意力不是计算给定标记和所有其他标记之间的对应关系,而是将全维度特征映射划分为几个不重叠的网格,并且在每个局部网格中计算标记交互。

判别器体系结构与前面引用的ViT非常相似。

对于图像翻译,最具前途的五个 AI 模型是什么?

对于图像翻译,最具前途的五个 AI 模型是什么?

不同数据集上的TransGAN结果


到这里,我们也就讲完了《对于图像翻译,最具前途的五个 AI 模型是什么?》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于人工智能,神经网络,平面设计的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Windows 11泄露更新功能:现代化音量混合器、实验工具以及全新的文件资源管理器Windows 11泄露更新功能:现代化音量混合器、实验工具以及全新的文件资源管理器
上一篇
Windows 11泄露更新功能:现代化音量混合器、实验工具以及全新的文件资源管理器
AutoGPT星标超PyTorch,但需注意其局限性:Star量近8万
下一篇
AutoGPT星标超PyTorch,但需注意其局限性:Star量近8万
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    20次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    29次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    34次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    43次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码