Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
积累知识,胜过积蓄金银!毕竟在##column_title##开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
随着Stable Diffusion的开源,用自然语言进行图像生成也逐渐普及,许多AIGC的问题也暴露了出来,比如AI不会画手、无法理解动作关系、很难控制物体的位置等。
其主要原因还是在于「输入接口」只有自然语言,无法做到对画面的精细控制。
最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究热源提出了一个全新的方法GLIGEN,以grounding输入为条件,对现有「预训练文本到图像扩散模型」的功能进行扩展。

论文链接:https://arxiv.org/pdf/2301.07093.pdf
项目主页:https://gligen.github.io/
体验链接:https://huggingface.co/spaces/gligen/demo
为了保留预训练模型的大量概念知识,研究人员没有选择对模型进行微调,而是通过门控机制将输入的不同grounding条件注入到新的可训练层中,以实现对开放世界图像生成的控制。
目前GLIGEN支持四种输入。

(左上)文本实体+box (右上)图像实体+box
(左下)图像风格+文本+box (右下)文本实体+关键点
实验结果也显示,GLIGEN 在 COCO 和 LVIS 上的zero-shot性能大大优于目前有监督layout-to-image基线。
可控图像生成
在扩散模型之前,生成对抗网络(GANs)一直是图像生成领域的一哥,其潜空间和条件输入在「可控操作」和「生成」方面得到了充分的研究。
文本条件自回归和扩散模型表现出惊人的图像质量和概念覆盖率,得益于其更稳定的学习目标和对网络图像-文本配对数据的大规模训练,并迅速出圈,成为辅助艺术设计和创作的工具。
但现有的大规模文本-图像生成模型不能以「文本之外」的其他输入模式为条件,缺乏精确定位概念或使用参考图像来控制生成过程的能力,限制了信息的表达。
比如说,使用文本很难描述一个物体的精确位置,而边界框(bounding
boxes)或关键点(keypoints)则可以很容易实现。

现有的一些工具如inpainting, layout2img生成等可以利用除文本以外的模态输入,但却很少将这些输入结合起来用于可控的text2img生成。
此外,先前的生成模型通常是在特定任务的数据集上独立训练的,而在图像识别领域,长期以来的范式是通过从「大规模图像数据」或「图像-文本对」上预训练的基础模型开始建立特定任务的模型。
扩散模型已经在数十亿的图像-文本对上进行了训练,一个很自然的问题是:我们能否在现有的预训练的扩散模型的基础上,赋予它们新的条件输入模式?
由于预训练模型所具有的大量概念知识,可能能够在其他生成任务上取得更好的性能,同时获得比现有文本-图像生成模型更多的可控性。
GLIGEN
基于上述目的和想法,研究人员提出的GLIGEN模型仍然保留文本标题作为输入,但也启用了其他输入模态,如grounding概念的边界框、grounding参考图像和grounding部分的关键点。
这里面的关键难题是在学习注入新的grounding信息的同时,还保留预训练模型中原有的大量概念知识。
为了防止知识遗忘,研究人员提出冻结原来的模型权重,并增加新的可训练的门控Transformer层以吸收新的grouding输入,下面以边界框为例。
指令输入

每个grouding文本实体都被表示为一个边界框,包含左上角和右下角的坐标值。
需要注意的是,现有的layout2img相关工作通常需要一个概念词典,在评估阶段只能处理close-set的实体(如COCO类别),研究人员发现使用编码图像描述的文本编码器即可将训练集中的定位信息泛化到其他概念上。
训练数据
用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件,在实践中可以通过考虑更灵活的输入来放松对数据的要求。

主要有三种类型的数据
1. grounding数据
每张图片都与描述整张图片的标题相关联;名词实体从标题中提取,并标上边界框。
由于名词实体直接取自自然语言的标题,它们可以涵盖更丰富的词汇,有利于开放世界词汇的grounding生成。
2. 检测数据 Detection data
名词实体是预先定义的close-set类别(例如COCO中的80个物体类别),选择使用classifier-free引导中的空标题token作为标题。
检测数据的数量(百万级)大于基础数据(千级),因此可以大大增加总体训练数据。
3. 检测和标题数据 Detection and Caption data
名词实体与检测数据中的名词实体相同,而图像是单独用文字标题描述的,可能存在名词实体与标题中的实体不完全一致的情况。
比如标题只给出了对客厅的高层次描述,没有提到场景中的物体,而检测标注则提供了更精细的物体层次的细节。
门控注意力机制
研究人员的目标是为现有的大型语言-图像生成模型赋予新的空间基础能力,
大型扩散模型已经在网络规模的图像文本上进行了预训练,以获得基于多样化和复杂的语言指令合成现实图像所需的知识,由于预训练的成本很高,性能也很好,在扩展新能力的同时,在模型权重中保留这些知识是很重要的,可以通过调整新的模块来逐步适应新能力。

在训练过程中,使用门控机制逐渐将新的grounding信息融合到预训练的模型中,这种设计使生成过程中的采样过程具有灵活性,以提高质量和可控性。
实验中也证明了,在采样步骤的前半部分使用完整的模型(所有层),在后半部分只使用原始层(没有门控Transformer层),生成的结果能够更准确反映grounding条件,同时具有较高的图像质量。
实验部分
在开放集合grounded文本到图像生成任务中,首先只用COCO(COCO2014CD)的基础标注进行训练,并评估GLIGEN是否能生成COCO类别以外的基础实体。

可以看到,GLIGEN可以学会新的概念如「蓝鸦」、「羊角面包」,或新的物体属性如「棕色木桌」,而这些信息没有出现在训练类别中。
研究人员认为这是因为GLIGEN的门控自注意力学会了为接下来的交叉注意力层重新定位与标题中的接地实体相对应的视觉特征,并且由于这两层中的共享文本空间而获得了泛化能力。
实验中还定量评估了该模型在LVIS上的zero-shot生成性能,该模型包含1203个长尾物体类别。使用GLIP从生成的图像中预测边界框并计算AP,并将其命名为GLIP得分;将其与为layout2img任务设计的最先进的模型进行比较,

可以发现,尽管GLIGEN模型只在COCO标注上进行了训练,但它比有监督的基线要好得多,可能因为从头开始训练的基线很难从有限的标注中学习,而GLIGEN模型可以利用预训练模型的大量概念知识。

总的来说,这篇论文:
1. 提出了一种新的text2img生成方法,赋予了现有text2img扩散模型新的grounding可控性;
2. 通过保留预训练的权重和学习逐渐整合新的定位层,该模型实现了开放世界的grounded text2img生成与边界框输入,即综合了训练中未观察到的新的定位概念;
3. 该模型在layout2img任务上的zero-shot性能明显优于之前的最先进水平,证明了大型预训练生成模型可以提高下游任务的性能
好了,本文到此结束,带大家了解了《Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!
外媒如何看待百度文心一言?褒贬不一,长期看好中国AI发展
- 上一篇
- 外媒如何看待百度文心一言?褒贬不一,长期看好中国AI发展
- 下一篇
- 立即体验!直接可用的中文版ChatGPT来了
-
- 科技周边 · 人工智能 | 5分钟前 | DeepSeek
- deepseek怎样分析复杂数据给出洞察_数据分析洞察方法【攻略】
- 479浏览 收藏
-
- 科技周边 · 人工智能 | 14分钟前 | DeepSeek
- DeepSeek如何上传本地文件_DeepSeek上传本地文件步骤
- 236浏览 收藏
-
- 科技周边 · 人工智能 | 14分钟前 |
- 打造自动化提案流程:提升销售效率的秘诀
- 457浏览 收藏
-
- 科技周边 · 人工智能 | 25分钟前 | DeepSeek
- deepseek能否按行业术语定制回答_行业化定制回答设置教程【教程】
- 426浏览 收藏
-
- 科技周边 · 人工智能 | 47分钟前 |
- AI Flyer Design: 使用ChatGPT免费设计营销传单终极指南
- 146浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 讯飞火星AI
- 讯飞火星AI怎样进行新闻摘要生成_讯飞火星AI新闻内容自动摘要与关键信息提取方法
- 367浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 小说创作 创作流程
- 文心一言如何写小说_从角色设定到情节大纲的完整创作流程【指南】
- 195浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- SNHU学生高效学习攻略:利用大学资源和社交支持取得成功
- 388浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | AI视频怎么制作
- Camtasia如何用于AI视频教程制作?教你创建教学类AI视频的步骤
- 435浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 利用AI赋能网站建设,打造高转化智能营销平台
- 428浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek如何写小红书文案_DeepSeek爆款文案写作技巧【运营】
- 296浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 百度AI
- 百度AI最新官网官方地址_百度AI平台链接直达访问首页
- 203浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3366次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3575次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3608次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4737次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3980次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

