当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素

首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素

来源:51CTO.COM 2023-05-03 17:44:13 0浏览 收藏

科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!

​​AIGC爆火的背后,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。

随着OpenAI发布DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出StyleGAN等技术。

图片

从GAN切换到扩散模型的架构转变也引出了一个问题:能否通过扩大GAN模型的规模,比如说在 LAION 这样的大型数据集中进一步提升性能吗?

最近,针对增加StyleGAN架构容量会导致不稳定的问题,来自浦项科技大学(韩国)、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN,打破了模型的规模限制,展示了 GAN 仍然可以胜任文本到图像合成模型。

图片

论文链接:https://arxiv.org/abs/2303.05511

项目链接:https://mingukkang.github.io/GigaGAN/

GigaGAN有三大优势。

1. 它在推理时速度更快,相比同量级参数的Stable Diffusion-v1.5,在512分辨率的生成速度从2.9秒缩短到0.13秒。

图片

2. 可以合成高分辨率的图像,例如,在3.66秒内合成1600万像素的图像。

图片

3. 支持各种潜空间编辑应用程序,如潜插值、样式混合和向量算术操作等。

图片

GAN到极限了吗?

最近发布的一系列模型,如DALL-E 2、Imagen、Parti和Stable Diffusion,开创了图像生成的新时代,在图像质量和模型灵活性方面达到了前所未有的水平。

现在占主导地位的范式「扩散模型」和「自回归模型」,都依赖于迭代推理这把双刃剑,因为迭代方法能够以简单的目标进行稳定的训练,但在推理过程中会产生更高的计算成本。

与此形成对比的是生成对抗网络(GAN),只需要一次forward pass即可生成图像,因此本质上是更高效的。

虽然GAN模型主导了生成式建模的「前一个时代」,但由于训练过程中的不稳定性,对GAN进行扩展需要仔细调整网络结构和训练考虑,因此GANs虽然在为单个或多个对象类别建模方面表现出色,但扩展到复杂的数据集上(更不用说开放世界物体生成了),仍然具有挑战性。

所以目前超大型的模型、数据和计算资源都主要集中在扩散和自回归模型上。

在这项工作中,研究人员主要解决以下问题:

GAN能否继续扩大规模并有可能从这些资源中受益?或者说GAN已经到达极限了?是什么阻碍了GAN的进一步扩展?能否克服这些障碍?

稳定训练GAN

研究人员首先用StyleGAN2进行实验,观察到简单地扩展骨干网会导致不稳定的训练,在确定了几个关键问题后,提出了在增加模型容量的同时稳定训练的技术。

首先,通过保留一个滤波器库(a bank of filters),并采取一个特定样本的线性组合来有效地扩展生成器的容量。

改编了几个在扩散模型上下文中常用的技术,并确认它们可以为GANs带来了类似的性能提升,例如将自注意力机制(仅图像)和交叉注意力(图像-文本)与卷积层交织在一起可以提高性能。

此外,研究人员重新引入了多尺度训练(multi-scaletraining),找到了一个新的方案可以改善图像-文本对齐和生成输出的低频细节。

多尺度训练可以让基于GAN的生成器更有效地使用低分辨率块中的参数,从而具有更好的图像-文本对齐和图像质量。

生成器

图片

GigaGAN的生成器由文本编码分支(text encoding branch)、样式映射网络(style mapping network)、多尺度综合网络(multi-scale synthesis network)组成,并辅以稳定注意力(stable attention)和自适应核选择(adaptive kernel selection)。

在文本编码分支中,首先使用一个预先训练好的 CLIP 模型和一个学习的注意层 T 来提取文本嵌入,然后将嵌入过程传递给样式映射网络 M,生成与 StyleGAN 类似的样式向量 w

图片

合成网络采用样式编码作为modulation,以文本嵌入作为注意力来生成image pyramid,在此基础上,引入样本自适应核选择算法,实现了基于输入文本条件的卷积核自适应选择。

图片

判别器

图片

与生成器类似,GigaGAN的判别器由两个分支组成,分别用于处理图像和文本条件。

文本分支处理类似于生成器的文本分支;图像分支接收一个image pyramid作为输入并对每个图像尺度进行独立的预测。

图片

公式中引入了多个额外的损失函数以促进快速收敛。

实验结果

对大规模文本-图像合成任务进行系统的、受控的评估是困难的,因为大多数现有的模型并不公开可用,即使训练代码可用,从头开始训练一个新模型的成本也会过高。

研究人员选择在实验中与Imagen、Latent Diffusion Models(LDM)、Stable Diffusion和Parti进行对比,同时承认在训练数据集、迭代次数、批量大小和模型大小方面存在相当大的差异。

对于定量评价指标,主要使用Frechet Inception Distance(FID)来衡量输出分布的真实性,并使用CLIP分数来评价图像-文本对齐。

文中进行了五个不同的实验:

1. 通过逐步纳入每个技术组件来展示提出方法的有效性;

图片

2. 文本-图像合成结果表明,GigaGAN表现出与稳定扩散(SD-v1.5)相当的FID,同时生成的结果比扩散或自回归模型快数百倍;

图片

3. 将GigaGAN与基于蒸馏的扩散模型进行对比,显示GigaGAN可以比基于蒸馏的扩散模型更快地合成更高质量的图像;

图片

4. 验证了GigaGAN的上采样器在有条件和无条件的超分辨率任务中比其他上采样器的优势;

图片

5. 结果表明大规模GANs仍然享有GANs的连续和分解潜伏空间的操作,实现了新的图像编辑模式。

图片

经过调参,研究人员在大规模的数据集,如LAION2B-en上实现了稳定和可扩展的十亿参数GAN(GigaGAN)的训练。

图片

并且该方法采用了多阶段的方法,首先在64×64下生成,然后上采样到512×512,这两个网络是模块化的,而且足够强大,能够以即插即用的方式使用。

结果表明,尽管在训练时从未见过扩散模型的图像,但基于文本条件的GAN上采样网络可以作为基础扩散模型(如DALL-E 2)的高效、高质量的上采样器。

图片

这些成果加在一起,使得GigaGAN远远超过了以前的GAN模型,比StyleGAN2大36倍,比StyleGAN-XL和XMC-GAN大6倍。

图片

虽然GiGAN的10亿参数量仍然低于最近发布的最大合成模型,如Imagen(3B)、DALL-E 2(5.5B)和Parti(20B),但目前还没有观察到关于模型大小的质量饱和度。

GigaGAN在COCO2014数据集上实现了9.09的zero-shot FID,低于DALL-E 2、Parti-750M和Stable Diffusion的FID

应用场景

提示插值(Prompt interpolation)

GigaGAN可以在提示之间平滑地插值,下图中的四个角是由同一潜码生成,但带有不同的文本提示。

图片

解耦提示混合(Disentangled prompt mixing)

GigaGAN 保留了一个分离的潜空间,使得能够将一个样本的粗样式与另一个样本的精细样式结合起来,并且GigaGAN 可以通过文本提示直接控制样式。

图片

粗到精风格交换(Coarse-to-fine sytle swapping)

基于 GAN 的模型架构保留了一个分离的潜在空间,使得能够将一个样本的粗样式与另一个样本的精样式混合在一起。

图片

参考资料:​

https://mingukkang.github.io/GigaGAN/

以上就是《首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素》的详细内容,更多关于网络,模型,GAN的资料请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
云计算通用可编程DPU发展云计算通用可编程DPU发展
上一篇
云计算通用可编程DPU发展
2022 AAAS Fellow名单出炉,杜克大学陈怡然、量子计算大牛Scott Aaronson等入选
下一篇
2022 AAAS Fellow名单出炉,杜克大学陈怡然、量子计算大牛Scott Aaronson等入选
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    39次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    60次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    69次使用
  • 稿定PPT:在线AI演示设计,高效PPT制作工具
    稿定PPT
    告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
    65次使用
  • Suno苏诺中文版:AI音乐创作平台,人人都是音乐家
    Suno苏诺中文版
    探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
    69次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码