SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现
最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~
Stability AI在本周二推出了新一代的图像合成模型——Stable Diffusion XL Turbo,这款模型引起了人们的热烈反响。许多人表示,使用该模型进行图像到文本生成变得前所未有的容易
在输入框中输入你的想法,SDXL Turbo 将快速响应并生成相应的内容,无需其他操作。无论你输入的内容增多还是减少,都不会影响它的速度
你可以利用现有的图像,更加精细地完成创作。只需拿一张白纸,告诉 SDXL Turbo 你想要一只白猫,还没打完字,小白猫就已经出现在你手中了
SDXL Turbo 模型的速度达到了近乎「实时」的程度,让人不禁开始畅想:图像生成模型是否可以有其他用途呢
有人直接连着游戏,获得了 2fps 的风格迁移画面:
据官方博客介绍,在 A100 上,SDXL Turbo 可在 207 毫秒内生成 512x512 图像(即时编码 + 单个去噪步骤 + 解码,fp16),其中单个 UNet 前向评估占用了 67 毫秒。
如此,我们可以判断,文生图已经进入「实时」时代。
这样的「即时生成」效率,与前不久爆火的清华 LCM 模型看起来有些相似,但是它们背后的技术内容却有所不同。Stability 在同期发布的一篇研究论文中详细介绍了该模型的内部工作原理。该研究重点提出了一种名为对抗扩散蒸馏(Adversarial Diffusion Distillation,ADD)的技术。SDXL Turbo 声称的优势之一是它与生成对抗网络(GAN)的相似性,特别是在生成单步图像输出方面。
论文地址:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf
论文细节
简单来说,对抗扩散蒸馏是一种通用方法,可将预训练扩散模型的推理步数量减少到 1-4 个采样步,同时保持高采样保真度,并有可能进一步提高模型的整体性能。
为此,研究者引入了两个训练目标的组合:(i)对抗损失和(ii)与 SDS 相对应的蒸馏损失。对抗损失迫使模型在每次前向传递时直接生成位于真实图像流形上的样本,避免了其他蒸馏方法中常见的模糊和其他伪影。蒸馏损失使用另一个预训练(且固定)的 扩散模型作为教师,有效利用其广泛知识,并保留在大型扩散模型中观察到的强组合性。在推理过程中,研究者未使用无分类器指导,进一步减少了内存需求。他们保留了模型通过迭代细化来改进结果的能力,这比之前基于 GAN 的单步方法具有优势。
训练步骤如图 2 所示:
表1 展示了消融实验的结果,下列为主要结论:
接下来是与其他 SOTA 模型的对比,此处研究者没有采用自动化指标,而是选择了更加可靠的用户偏好评估方法,目标是评估 prompt 遵循情况和整体图像。
为了比较多个不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL),实验使用相同的提示生成输出。在盲测中,SDXL Turbo以单步击败LCM-XL的4步配置,并且仅用4步击败SDXL的50步配置。通过这些结果,可以看出SDXL Turbo的性能优于最先进的多步模型,同时计算需求明显降低,而不需要牺牲图像质量
这里呈现的是关于推理速度的ELO分数的可视化图表
在表2中,对使用相同基础模型的不同few-step采样和蒸馏方法进行了比较。结果表明,ADD方法的性能优于所有其他方法,包括8步的标准DPM求解器
作为定量实验结果的补充,论文也展示了部分定性实验结果,展示了 ADD-XL 在初始样本基础上的改进能力。图 3 将 ADD-XL(1 step)与 few-step 方案中当前最佳基线进行了比较。图 4 介绍了 ADD-XL 的迭代采样过程。图 8 将 ADD-XL 与其教师模型 SDXL-Base 进行了直接比较。正如用户研究所示,ADD-XL 在质量和 prompt 对齐方面都优于教师模型。
如欲了解更多的研究细节,请参考原始论文
理论要掌握,实操不能落!以上关于《SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- LCM:大大加快生成高质量图像的新方法

- 下一篇
- 阿里国际站旗下OKKI AI上线,AI帮助外贸商家给海外客户写邮件
-
- 科技周边 · 人工智能 | 6小时前 |
- 零跑汽车交付破80万,C16新车即将上市
- 126浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- Hailuo02发布,MiniMax视频模型超可灵与Veo3
- 336浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- DeepSeek联名印象笔记,打造个人AI知识库
- 369浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 豆包AI代码管理方法详解
- 143浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 103次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 112次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 122次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 112次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 111次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览