当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > SDXL生成速度提升一倍,9GB GPU运行顺畅,稳定级联提升性价比

SDXL生成速度提升一倍,9GB GPU运行顺畅,稳定级联提升性价比

来源:机器之心 2024-02-17 23:18:21 0浏览 收藏
推广推荐
免费电影APP ➜
支持 PC / 移动端,安全直达

本篇文章向大家介绍《SDXL生成速度提升一倍,9GB GPU运行顺畅,稳定级联提升性价比》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。

硬件要求越来越低,生成速度越来越快。

Stability AI 作为文本到图像的先驱,不仅引领潮流,也不断在模型质量上取得新突破。这次,它实现了性价比的突破。

就在前几天,Stability AI 又有新动作了:Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新,它引入了一个三阶段方法,为质量、灵活性、微调和效率设定了新的基准,重点是进一步消除硬件障碍。此外,Stability AI 发布了训练和推理代码,允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推理。该模型以非商业许可发布,仅允许非商业使用。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

  • 原文链接:https://stability.ai/news/introducing-stable-cascade

  • 代码地址:https://github.com/Stability-AI/StableCascade

  • 体验地址:https://huggingface.co/spaces/multimodalart/stable-cascade

一如既往简单操作就能够生成目标图像:输入对图像的文字描述即可。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                              图源:https://twitter.com/multimodalart/status/1757391981074903446

Stable Cascade 的生成速度极快。X 平台用户 @GozukaraFurkan 发文表示它只需要大约 9GB 的 GPU 内存,且速度依旧能保持得较好。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                             图源:https://twitter.com/skirano/status/1757479638324883753

网友在生成过程中发现新模型在构图和细节方面有明显的提升,文字生成有了很大的进步:生成较短的单词 / 词组正确率比较高,长句也有一定概率可以完成(限英文),文字与画面的融合也非常好。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                               图源:https://twitter.com/ZHOZHO672070/status/1757779330443215065

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                                                                         图源:https://twitter.com/tyyleai/status/1757883017329054104

用户 @AIWarper 尝试了一些不同的艺术家风格测试。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

prompt:Nightmare on Elm Street。艺术家风格参考如下:左上为 Makoto Shinkai,左下为 Tomer Hanuka,右上为 Raphael Kirchner,右下为 Takato Yamamoto。

不过,生成人物面部时可以发现,人物的皮肤细节并不太好,有种「十级磨皮」的感觉。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                              图源:https://twitter.com/vitor_dlucca/status/1757511080287355093

技术细节

Stable Cascade 与 Stable Diffusion 模型系列不同, 它建立在由三个不同模型组成的管道上:阶段 A、B 和 C。这种架构可以对图像进行分层压缩,利用高度压缩的潜在空间实现较为出色的输出。这几个部分是如何组合在一起的呢?

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

潜像生成器阶段(C 阶段)将用户输入转换为紧凑的 24x24 潜在表征,然后传递给潜在解码器阶段(阶段 A 和 B),用于压缩图像,这类似于 Stable Diffusion 中 VAE 的工作,但能够实现更高的压缩。

通过将文本条件生成(阶段 C)与解码到高分辨率像素空间(阶段 A 和 B)解耦,我们就可以在阶段 C 上完成额外的训练或微调,包括 ControlNets 和 LoRA,与训练类似大小的 Stable Diffusion 模型相比,这成本可以缩减至其的十六分之一。阶段 A 和 B 可以选择性地进行微调以实现额外的控制,但这将类似于微调 Stable Diffusion 模型中的 VAE。在大多数情况下,这样做的收益微乎其微。因此,对于大多数用途,Stability AI 官方建议仅训练阶段 C 并使用阶段 A 和 B 的原始状态。

阶段 C 和 B 将发布两种不同的模型:阶段 C 的 1B 和 3.6B 参数模型,阶段 B 的 700M 和 1.5B 参数模型。推荐使用 3.6B 参数的模型作为阶段 C,因为该模型具有最高质量的输出。不过,对于那希望有最低硬件要求的用户,可以使用 1B 参数版本。对于阶段 B,发布的两者都能取得很好的结果,但 1.5B 参数的版本在重建细节方面表现更佳。得益于 Stable Cascade 的模块化方法,推理所需的预期 VRAM 要求可以保持在约 20GB。这可通过使用较小的变体进一步降低,需要注意的是,这也可能会降低最终输出质量。

比较

在评估中,Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果:

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                                Stable Cascade、SDXL、Playground v2 和 SDXL Turbo 之间的推理速度差异

Stable Cascade 对效率的重视通过其架构和更高的压缩潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多出 1.4B 参数,但它仍然具有更快的推理时间。

附加功能

除了标准的文本到图像生成外,Stable Cascade 还可以生成图像变体和图像到图像的生成。

图像变体通过使用 CLIP 从给定图像中提取图像嵌入,然后将其返回给模型。下图是示例输出。左侧图像显示原始图像,而其右侧的四个是生成的变体。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

图像到图像通过简单地向给定图像添加噪声,然后以此为起点生成图像。下面是对左侧图像添加噪声,然后以此为起点进行生成的示例。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

训练、微调、ControlNet 和 LoRA 的代码

随着 Stable Cascade 的发布,Stability AI 将发布用于训练、微调、ControlNet 和 LoRA 的所有代码,以降低进一步试验此架构的要求。以下将与模型一起发布的一些 ControlNets:

修补 / 扩图:输入一张图片,并配上一个遮罩,以配合文字提示。然后,模型将根据提供的文本提示填充图像的遮罩部分。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

Canny Edge:根据输入模型的现有图像的边缘生成新图像。根据 Stability AI 测试,它还可以扩展草图。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

                              顶部为输入模型的草图,底部为输出结果

2 倍超分辨率:将图像的分辨率提升至其边长的 2 倍,例如将 1024 x 1024 的图像转化为 2048 x 2048 的输出,也可以用于由阶段 C 生成的潜在表示。

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

这样的性价比,你喜欢吗?

好了,本文到此结束,带大家了解了《SDXL生成速度提升一倍,9GB GPU运行顺畅,稳定级联提升性价比》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
从 Rust 迁移到 Go 中的回调函数从 Rust 迁移到 Go 中的回调函数
上一篇
从 Rust 迁移到 Go 中的回调函数
如何使用reflect.NewAt在空接口上创建新值?
下一篇
如何使用reflect.NewAt在空接口上创建新值?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3206次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3419次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3449次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4557次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3827次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码