简化文生图prompt,LLM模型生成高质量图像
本篇文章给大家分享《简化文生图prompt,LLM模型生成高质量图像》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
扩散模型已经成为主流的文本到图像生成模型,它可以通过文本提示来引导生成高质量且内容丰富的图像
如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,这将导致生成的图像质量明显下降
中山大学HCP实验室的林倞团队提出了一种名为SUR-adapter的简单而有效的微调方法,旨在提高模型对叙述性提示的理解能力。该方法是一种语义理解和推理适配器,适用于预训练的扩散模型,并具有参数高效的特点
请点击以下链接查看论文:https://arxiv.org/abs/2305.05189
开源地址:https://github.com/Qrange-group/SUR-adapter
为了达到这个目标,研究人员首先收集并标注了一个名为SURD的数据集。这个数据集包含了超过5.7万个多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示以及一张高质量的图像
研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。然后,他们将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成
我们通过集成多个LLM和预训练扩散模型进行实验,发现该方法能够有效地使扩散模型理解和推理简洁的自然语言描述,同时不会降低图像质量
这种方法可以使得文本到图像的扩散模型更易于使用,提供更好的用户体验,进一步推动用户友好的文本到图像生成模型的发展,并弥补简单叙事提示和基于关键字提示之间的语义差距
背景介绍
目前,以稳定扩散为代表的文本到图像预训练模型已经成为人工智能生成内容领域最重要的基础模型之一,在图像编辑、视频生成、3D对象生成等任务中起着重要作用
目前,这些预训练的扩散模型的语义能力主要取决于文本编码器(如CLIP),其语义理解能力直接影响到扩散模型的生成效果
本文首先通过构造视觉问答任务(VQA)中常见的问题类别,如"计数"、"颜色"和"动作",来测试Stable diffusion的图文匹配准确度。我们将人工统计并进行测试
以下是构造各种提示的示例,详见下表
根据下表所示的结果,文章揭示了目前的文生图预训练扩散模型存在严重的语义理解问题。大量问题的图文匹配准确度不足50%,甚至在某些问题下,准确度仅为0%
为了获得符合文本生成条件的图像,我们需要找到方法来增强预训练扩散模型中本文编码器的语义能力
方法概述
重写后的内容:1. 数据预处理
首先,我们可以从常用的扩散模型在线网站lexica.art、civitai.com和stablediffusionweb中获取大量的图片文本对。然后,我们需要对这些数据进行清洗和筛选,以获得超过57000张高质量的三元组数据(包括复杂提示、简单提示和图片),并将其构成SURD数据集
在下图中所示,复杂提示是指生成图像时扩散模型所需的文本提示条件,通常这些提示具有复杂的格式和描述。简单提示是通过BLIP对图像生成的文本描述,它采用符合人类描述的语言格式
一般来说,符合正常人类语言描述的简单提示很难让扩散模型生成足够符合语义的图像,而复杂提示(用户戏称为扩散模型的“咒语”)则可以达到令人满意的效果
需要进行重新编写的内容是:2. 大型语言模型的语义蒸馏
本文介绍了一种使用Transformer结构的Adapter来蒸馏大型语言模型在特定隐藏层中的语义特征的方法,并通过将Adapter引导的大型语言模型信息与原始文本编码器输出的语义特征进行线性组合,得到最终的语义特征
大语言模型选用的是不同大小的LLaMA模型,而扩散模型的UNet部分在整个训练过程中的参数都是冻结的
需要进行重写的内容是:3. 图像质量恢复
为了保持原意不变,需要将内容改写为中文: 由于本文结构在预训练大模型推理过程引入了可学习模块,一定程度破坏了预训练模型的原图生成质量,因此需要将图像生成的质量拉回原预训练模型的生成质量水平
本文使用SURD数据集中的三元组,在训练过程中引入了相应的质量损失函数,以恢复图像生成的质量。具体而言,本文希望通过新模块后获得的语义特征能够与复杂提示的语义特征尽可能地对齐
下图展示了SUR-adapter对预训练扩散模型的fine-tuning框架。右侧为Adapter的网络结构
实验结果
对于SUR-adapter的性能,本文从语义匹配和图像质量两个方面进行了分析
一方面,根据下表显示,SUR-adapter能够有效地解决文生图扩散模型中常见的语义不匹配问题,适用于不同的实验设置。在不同类别的语义准则下,准确度也有一定的提升
另一方面,本文利用常用的BRISQUE等常用的图像质量评价指标下,对原始pretrain扩散模型和使用了SUR-adapter后的扩散模型所生成图片的质量进行统计检验,我们可以发现两者没有显著的差异。
我们还进行了一项人类偏好的调查问卷测试
通过以上分析,可以得出结论,所提出的方法能够在保持图像生成质量的同时,缓解预训练文本到图像的固有图文不匹配问题
我们还可以通过以下图像生成的示例来定性展示,更详细的分析和细节请参阅本文和开源仓库
需要进行改写的内容是:
HCP实验室简介
林倞教授于2010年创办了中山大学人机物智能融合实验室(HCP Lab)。近年来,该实验室在多模态内容理解、因果及认知推理、具身智能等领域取得了丰富的学术成果。实验室多次荣获国内外科技奖项和最佳论文奖,并致力于开发产品级的人工智能技术和平台
理论要掌握,实操不能落!以上关于《简化文生图prompt,LLM模型生成高质量图像》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- 石头 P10 Pro 自动清洁扫拖机器人发布:配备动态机械臂,预售价 3999 元

- 下一篇
- 自定义颜色选项让您在 Windows 11 设备上点亮个性化风格
-
- 科技周边 · 人工智能 | 5分钟前 |
- Claude医疗问答优化与知识库整合方法
- 284浏览 收藏
-
- 科技周边 · 人工智能 | 17分钟前 |
- 豆包大模型如何赋能AI育儿工具?
- 481浏览 收藏
-
- 科技周边 · 人工智能 | 27分钟前 |
- 豆包AI知识图谱配置与实体关系详解
- 271浏览 收藏
-
- 科技周边 · 人工智能 | 29分钟前 |
- 豆包AI生成JS代码全解析
- 376浏览 收藏
-
- 科技周边 · 人工智能 | 31分钟前 |
- 五分钟掌握DeepSeek+钉钉部署,提升办公效率
- 228浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- 豆包会员权益对比详解
- 343浏览 收藏
-
- 科技周边 · 人工智能 | 44分钟前 |
- AI模型数据共享工具怎么和豆包用?方法详解
- 170浏览 收藏
-
- 科技周边 · 人工智能 | 47分钟前 |
- AI剪辑平台语音识别推荐
- 418浏览 收藏
-
- 科技周边 · 人工智能 | 50分钟前 |
- 豆包大模型如何搭配AI修复工具?教程全解析
- 308浏览 收藏
-
- 科技周边 · 人工智能 | 56分钟前 |
- ChatGPT诗歌创作优化技巧
- 468浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- PerplexityAI如何辨别新闻真伪
- 296浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 扣子-Space(扣子空间)
- 深入了解字节跳动推出的通用型AI Agent平台——扣子空间(Coze Space)。探索其双模式协作、强大的任务自动化、丰富的插件集成及豆包1.5模型技术支撑,覆盖办公、学习、生活等多元应用场景,提升您的AI协作效率。
- 6次使用
-
- 蛙蛙写作
- 蛙蛙写作是一款国内领先的AI写作助手,专为内容创作者设计,提供续写、润色、扩写、改写等服务,覆盖小说创作、学术教育、自媒体营销、办公文档等多种场景。
- 11次使用
-
- CodeWhisperer
- Amazon CodeWhisperer,一款AI代码生成工具,助您高效编写代码。支持多种语言和IDE,提供智能代码建议、安全扫描,加速开发流程。
- 24次使用
-
- 畅图AI
- 探索畅图AI:领先的AI原生图表工具,告别绘图门槛。AI智能生成思维导图、流程图等多种图表,支持多模态解析、智能转换与高效团队协作。免费试用,提升效率!
- 52次使用
-
- TextIn智能文字识别平台
- TextIn智能文字识别平台,提供OCR、文档解析及NLP技术,实现文档采集、分类、信息抽取及智能审核全流程自动化。降低90%人工审核成本,提升企业效率。
- 57次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览