谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~
识别和生成是人工智能领域中的两大核心任务,如果能将二者合并到一个统一的系统中,这两个任务应该能实现互补。事实上,在自然语言处理中,像 BERT [1] 这样的模型不仅能够生成高质量的文本,还能够提取文本中的特征。
然而,在计算机视觉领域,目前的图像生成模型和识别模型大多是分开进行训练,没有充分利用这两个任务的协同作用。这主要是由于图像生成和图像识别的模型通常具有本质上的结构差异:图像生成的输入是低维度的特征或噪声,而输出是高维度的原始图像;与之相反,图像识别的输入是高维度的原始图像,而输出是低维度的特征。
最近,来自 MIT 和 Google Research 的研究人员提出了一种基于图像语义符掩码的表征学习方法,首次在一个统一的框架中实现了图像生成和表征学习,并在多个数据集上取得了 SOTA 表现。研究论文已被 CVPR 2023 接收,相关代码与预训练模型已开源。
- 论文地址:https://arxiv.org/abs/2211.09117
- 代码地址:https://github.com/LTH14/mage
在 CVPR 2022 上,MAE [2] 提出了一种基于图像掩码(MIM)的表征学习方法,并在多个子任务上取得了非常好的效果。在高达 75% 的掩码率下,MAE 可以重构出与原图语义十分贴合的图像,并借此让网络能够自监督地学习图像中的特征。然而,如图 1 所示, MAE 重建的图像虽然具有与原始图像相似的语义信息,但会出现严重的模糊与失真问题。类似的问题也出现在所有基于 MIM 的表征学习方法中。同时,目前的生成模型,不管是扩散模型还是 GAN,都缺乏提取高质量图像特征的能力。
图 1:MAE 与 MAGE 重构对比
方法概述
针对上述问题,本文作者提出了 MAGE(Masked Generative Encoder),首次实现了统一的图像生成和特征提取模型。与MIM直接作用于图像的掩码方法不同,MAGE 提出了基于图像语义符的 masked image token modeling 方法。如图所示,MAGE 首先使用 VQGAN [3] 编码器将原始图像转换为离散的语义符。之后,MAGE 对其进行随机掩码,并使用基于 transformer 的 encoder-decoder 结构对掩码进行重构,重构后的语义符可以通过 VQGAN 解码器生成原始图像。通过在训练中使用不同的掩码率,MAGE 可以同时进行生成模型(接近 100% 掩码率)和表征学习(50%-80% 掩码率)的训练。如图 1 所示,MAGE 重建出的图像不仅具有与原始图像一致的语义信息,还能够同时保证生成图像的多样性与真实性。
图 2:MAGE 结构图
实验结果
MAGE 在多个图像生成与图像识别任务上都达到或超过了 SOTA。
在 ImageNet 的无监督图像生成任务中,MAGE 的 FID 从之前的 > 20 降至 7.04,甚至达到了有监督图像生成的水准(有监督 Latent Diffusion 在 ImageNet 上的 FID 为 3.60):
图3:MAGE 无监督图像生成样例
MAGE 还能够进行各类图像编辑工作,包括 image inpainting、outpainting、uncropping:
图 4:MAGE 图像编辑样例
在表征学习方面,MAGE 在 ImageNet linear probing、少样本学习、迁移学习等任务中,相较于目前的 MIM 方法有了大幅提升,并且可以达到或超过目前最优的自监督学习方法的水平。
结语
本文旨在将图像生成与表征学习统一起来。为此,本文作者提出了 MAGE,一种基于图像语义符掩码的自监督学习框架。该框架简洁、高效,并首次在图像生成和表征学习上都达到或超越了 SOTA 的表现。感兴趣的读者可以查看论文原文,以了解更多研究细节。
终于介绍完啦!小伙伴们,这篇关于《谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 基于开源的 ChatGPT Web UI 项目,快速构建属于自己的 ChatGPT 站点

- 下一篇
- 谁能做出中国版ChatGPT?怎么做?
-
- 科技周边 · 人工智能 | 21分钟前 | 特效 VisionStory 剪辑技巧 慢动作剪辑 快进剪辑
- VisionStory特效:慢动作与快进剪辑技巧解析
- 359浏览 收藏
-
- 科技周边 · 人工智能 | 34分钟前 |
- ChatGPTAPI接入指南与调用教程
- 178浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- 免费AI文字转语音工具推荐指南
- 218浏览 收藏
-
- 科技周边 · 人工智能 | 48分钟前 |
- PerplexityAI怎么用?功能详解教程
- 431浏览 收藏
-
- 科技周边 · 人工智能 | 52分钟前 |
- 豆包AI设计模式示例详解
- 165浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 文字转视频可行吗?AI工具实测对比结果
- 303浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 3D效果 光影 视觉增强 VisionStory 沉浸感
- VisionStory3D效果教程及优化技巧
- 179浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek卫星轨道计算能力详解
- 193浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 151次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 143次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 158次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 153次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 160次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览