当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > LCM:大大加快生成高质量图像的新方法

LCM:大大加快生成高质量图像的新方法

来源:51CTO.COM 2023-11-30 14:21:56 0浏览 收藏

小伙伴们对科技周边编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《LCM:大大加快生成高质量图像的新方法》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对大家的知识积累有所帮助!

作者丨Mike Young

译文:重新创作内容而不改变原义的语言是中文,无需出现原句

审校内容,无需改变原意,需要将语言改写为中文,不需要出现原句

推荐 | 51CTO技术栈(微信号:blog51cto)

LCM:大大加快生成高质量图像的新方法图片

由于一项名为潜在一致性模型(LCM)的新技术的出现,AI将迎来在将文本转换成图像方面的重大突破。传统方法如潜在扩散模型(LDM)在使用文本提示生成详细、创造性图像方面表现出色,但其致命缺点是速度较慢。使用LDM生成单个图像可能需要进行数百个步骤,这对于许多实际应用来说速度实在太慢了

重新写成中文: LCM通过减少生成图像所需步骤的数量来改变游戏规则。与LDM需要数百步才能辛苦地生成图像相比,LCM只需1到4步就能得到类似质量的结果。为了实现这种效率,LCM将预训练的LDM提炼成更简洁的形式,从而大大减少了所需的计算资源和时间。我们将分析一篇最近的论文,介绍LDM模型的工作原理

本文还介绍了一种名为LCM-LoRA的创新,这是一种通用的Stable-Diffusion加速模块。该模块可以插入到各种Stable--Diffusion微调模型,无需任何额外的训练。它是一种普遍适用的工具,可以加速各种图像生成任务,使其成为利用AI创建图像的潜在利器。我们还将剖析论文的这个部分。

1、高效训练LCM

在神经网络领域,存在一个巨大的挑战,即需要庞大的计算能力,尤其是在训练复杂方程的神经网络时。然而,这篇论文的团队采用了一种名为提炼的巧妙方法,成功地解决了这个问题

重写后的内容: 研究团队的方法如下:首先,他们使用一个文本与图像配对的数据集来训练一个标准的潜在扩散模型(LDM)。一旦LDM被启动并运行,他们将其用作导师,生成新的训练数据。然后,他们使用这些新数据来训练潜在一致性模型(LCM)。最吸引人的是,LCM可以从LDM的能力中学习,而无需从头开始使用庞大的数据集进行训练

真正重要的是这个过程的效率。研究人员仅使用单个GPU就在大约32小时内完成了高质量LCM的训练。这很重要,因为它比以前的方法快得多、实用得多。这意味着现在更多的人和项目都可以创建这种先进的模型,而不是只有享有超级计算资源的人才能创建。

LCM:大大加快生成高质量图像的新方法图1、LCM-LoRA概述

通过将LoRA引入到LCM的提炼过程中,我们显著降低了提炼的内存开销,这使得我们可以用有限的资源训练更庞大的模型,比如SDXL和SSD-1B。更重要的是,通过LCM-LoRA训练获得的LoRA参数(“加速向量”)可以直接与通过针对特定样式的数据集进行微调获得的其他LoRA参数(“样式向量”)结合起来。无需任何训练,由加速向量和样式向量的线性组合获得的模型获得了以最少的采样步骤生成特定绘画样式的图像这种能力。

2、结果

该研究展示了基于潜在一致性模型(LCM)利用AI生成图像方面的重大进展。LCM擅长仅用四个步骤就能创建高质量的512x512图像,与潜在扩散模型(LDM)等传统模型所需的数百个步骤相比有了显著改进。这些图像拥有清晰的细节和逼真的纹理,这个优点在下面的例子中尤为明显。

LCM:大大加快生成高质量图像的新方法图片

图2、论文声称:“使用从不同的预训练扩散模型中提取的潜在一致性模型生成的图像。我们使用LCM-LoRA-SD-V1.5生成512×512分辨率的图像,使用LCM-LoRA-SDXL和LCM-LoRA-SSD-1B生成1024×1024分辨率的图像。”

这些模型不仅可以轻松处理较小的图像,还擅长生成更庞大的1024x1024图像。它们展示了一种扩展到比以前大得多的神经网络模型的能力,展示了其适应能力。在论文中的示例中(比如LCM-LoRA-SD-V1.5和LCM-LoRA-SSD-1B版本的示例),阐明了该模型在各种数据集和实际场景中的广泛适用性

3、局限性

LCM的当前版本存在几处局限性。最重要的是两个阶段的训练过程:首先训练LDM,然后用它来训练LCM。在未来的研究中,可能会探索一种更直接的LDM训练方法,因而可能不需要LDM。论文主要讨论无条件图像生成,条件生成任务(比如文本到图像的合成)可能需要做更多的工作。

4、主要的启示

潜在一致性模型(LCM)在快速生成高质量图像方面迈出了重要一步。这些模型只需1到4步就能生成与较慢的LDM相媲美的结果,可能会彻底改变文本到图像模型的实际应用。虽然目前存在一些局限性,特别是在训练过程和生成任务的范围方面,但LCM标志着基于神经网络的实用图像生成取得了重大进展。提供的示例强调了这些模型的潜力

5、LCM-LoRA作为通用加速模块

在引言中提到的,该论文分为两个部分。第二部分讨论了LCM-LoRA技术,它能够使用较少的内存对预训练模型进行微调,从而提高效率

这里的关键创新是将LoRA参数集成到LCM中,从而生成结合两者优点的混合模型。这种集成对于创建特定样式的图像或响应特定任务特别有用。如果选择和组合不同的LoRA参数集,每个参数集又都针对独特的样式进行微调,研究人员创建了一个多功能模型,可以用最少的步骤生成图像,不需要额外的训练。

通过将针对特定绘画样式进行微调的LoRA参数与LCM-LoRA参数相结合的例子,他们在研究中证明了这一点。这种组合允许在不同的采样步骤(如2步、4步、8步、16步和32步)创建样式迥异的1024 × 1024分辨率图像。结果显示,这些组合的参数无需进一步训练即可生成高质量的图像,凸显了该模型的效率和通用性

这里值得关注的一个地方是使用所谓的“加速向量”(τLCM)和“样式向量”(τ),两者使用特定的数学公式(λ1和λ2是这些公式中的可调整因子)组合在一起。这种组合产生的模型可以快速地生成定制样式的图像。   

论文中的图3(如下所示)通过展示特定样式LoRA参数与LCM-LoRA参数结合的结果,表明了这种方法的有效性。这证明了该模型能够快速高效地生成样式不同的图像。

LCM:大大加快生成高质量图像的新方法图3


总的来说,本文的这一部分强调了LCM-LoRA模型的通用性和高效性,它可以用于快速生成高质量的特定样式图像,而只需使用很少的计算资源。该技术的应用范围广泛,有望彻底改变从数字艺术到自动化内容创作等各个领域中图像生成的方式

6、结论

我们研究了一种新的方法,即潜在一致性模型(LCM),用于加快从文本生成图像的过程。与传统的潜在扩散模型(LDM)不同,LCM只需1到4个步骤即可生成质量相似的图像,而不需要数百个步骤。这种显著的效率提升是通过提炼方法实现的,即使用预训练的LDM来训练LCM,从而避免了大量的计算

此外,我们还研究了LCM-LoRA,这是一种使用低秩自适应(LoRA)对预训练模型进行微调的增强技术,以降低内存需求。这种集成方法可以在不需要额外训练的情况下,通过最小的计算步骤创建特定样式的图像

着重强调的关键结果包括LCM仅用几个步骤就能创建高质量的512x512和1024x1024图像,而LDM却需要数百个步骤。然而,目前存在的局限性是LDM依赖两步训练过程,因此你仍需要LDM开始入手!未来的研究可能会简化这个过程。

LCM特别是在提议的LCM-LoRA模型中与LoRA结合使用时,是一种非常巧妙的创新。它们提供了更快速、更高效地创建高质量图像这个优点,我认为它们在数字内容创建方面有着广泛的应用前景。

参考链接:https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-much-faster/ 

终于介绍完啦!小伙伴们,这篇关于《LCM:大大加快生成高质量图像的新方法》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
加速数字化与低碳化双转型,施耐德电气的创新力量如何发挥作用?加速数字化与低碳化双转型,施耐德电气的创新力量如何发挥作用?
上一篇
加速数字化与低碳化双转型,施耐德电气的创新力量如何发挥作用?
SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现
下一篇
SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    23次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    33次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    30次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    34次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码