当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

来源:51CTO.COM 2023-04-27 20:18:47 0浏览 收藏

大家好,我们又见面了啊~本文《Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~

自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。

相比之下,Stable Diffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图像全靠多次抽卡。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

最近Stability AI的官宣,正在研发的Stable Diffusion XL开始面向公众测试,目前可以在Clipdrop平台免费试用。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

试用链接:​https://clipdrop.co/stable-diffusion​

Stability AI的创始人兼首席执行官Emad Mostaque表示,目前该模型仍然处于训练阶段,等参数稳定后将会开源;SD-XL在「握手」等图像细节方面会表现更好,几乎完全可控。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Stable Diffusion XL也并不是最终发布版的名字,并且也并非是v3,因为SD-XL的架构和SD-v2系列的模型架构非常相似。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

简约的家庭健身房,橡胶地板,壁挂式电视,举重凳,药球,哑铃,瑜伽垫,高科技设备,高细节,组织和效率

下面几张SD-XL官方发布的例图,可以看出图像的质量已经非常能打了。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

不过有时候less并不代表more,有网友认为SD-XL为了摆脱「糟糕的品味」,设定了太多的规则,定制化空间越来越小,不符合大多数人的喜好。目前v1.5的Stable Diffusion仍然是社区内最流行的基座模型。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

网友表示希望新版SD能够和SD 2.1版本的嵌入、hypernetworkds和Lora模型保持兼容,再从零开始重训的话就太难受了。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

也有网友认为,SD-XL的表现和civit网站上网友分享的模型差不多,新模型的效果也并不是特别惊艳,也就是平均水平。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL:开源版Midjourney

关于Stable Diffusion XL模型的具体信息,官方并没有透露太多,目前只知道是一个与v2模型架构相似、但规模和参数量更大的模型。

SD-v2.1包括9亿参数,SD-XL大约有23亿参数,Emad表示正式版可能会额外发布一个更小的蒸馏版本。

SD-XL相比之前版本的改进如下:

  • 使用较短的描述性prompt即可生成高质量图像
  • 可以生成更贴合prompt的图像
  • 图像中的人体结构更合理
  • 与 v2.1和 v1.5版本(程度较轻)相比,SD-XL生成的图片更符合大众审美
  • 负面提示词(negative prompt)是可选项
  • 生成的肖像图更逼真
  • 图像中的文本更清晰

需要注意的是,SD-XL可能与之前版本的插件不兼容。

清晰可读的文字

在v1系列和v2.1版本的Stable Diffusion模型中,并不具备在图片中生成可读文本的能力。

虽然SD-XL生成的文本信息并不总是准确,但确实得到了巨大的提升。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女人坐在餐馆里拿着写着「Menu」的菜单

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a man holding a sign that says “Stable Diffusion”

一个男人举着写着「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一个年轻的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿着裙子,侧灯

更好的人体结构

Stable Diffusion在生成人体解剖结构方面一直存在诸多问题,多几条腿、少个胳膊实在是太常见不过的问题,通常需要使用inpaint功能进一步对图像细节进行修正;或者是使用ControlNet的Open Pose功能从参考图像中复制人体的姿态。

比如说SD-v1.5生成瑜伽的图像,经常会出现扭曲的人体。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一个女人的照片在瑜伽服装,三角形的姿势,海滩在晚上,边缘照明

SD-XL虽然生成的图像并不完美,不过在人体姿态方面已经有了显著的进步。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

更有美感(more aesthetic)

比如同样以屋子为主题,SD-XL可以生成更对称、视觉效果更好的照片。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL在肖像照片上也有显著改进。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

photo shot of a woman

一个女人的照片

更贴合prompt的图像

SD-XL可以更好地理解输入的prompt,并生成更精确的图像。

比如以duotone(双色)为例,SD-v1.5只会生成黑白图像,而SD-XL则可以生成具有多种颜色的双色调图像。

与 v1模型相比,理解提示符的能力有所提高。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

duotone portrait of a woman

一个女人的双色调肖像

因为SD-XL同属v2系列模型,所以文本模型尺寸更大,可以比v1模型更好地理解提示词。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

比如下面的例子中,v1.5模型始终无法理解图像中的两个主题(机器人和人类),但SD-XL模型可以生成正常的图像(虽然机器人还是不够big)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

艺术风格

在艺术风格上,SD-XL并没有显著改进,和之前的版本各有千秋。

比如两个模型以不同的角度生成了Edward Hopper风格的图像。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

New York city by Edward Hopper

Edward Hopper绘制的纽约

Leonid Afmov 的风格中,SD-v1.5更准确,SD-XL缺少了不同颜色的笔刷(unmistakable colorful board brushstrokes)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

New York city by Leonid Afremov

Leonid Afemov绘制的纽约

William-Adolphe Bouguereau风格中,V1.5和SDXL都可以生成一些类似的内容,其中SD-XL更接近Bouguereau创作的经典学院派绘画,并且面部细节更多。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau绘制的美女肖像

风格转变问题

在添加一些无关紧要的关键字后,模型的风格可能会突然转变。

比如先生成一张照片风格的图像。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

再添加一条黄色的围巾后,图像风格就变成了卡通风格。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色的眼睛,围着黄色的围巾,穿着白衬衫和蓝色牛仔裤,站在一个火山为背景的海滩上

问题的故障可能源于预览问题,在正式发布后该问题不知能否得到解决。

到这里,我们也就讲完了《Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于开源的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
MySQL不适合构建索引及索引失效的情况有哪些MySQL不适合构建索引及索引失效的情况有哪些
上一篇
MySQL不适合构建索引及索引失效的情况有哪些
Java怎么连接MySQL数据库
下一篇
Java怎么连接MySQL数据库
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 互联网信息服务算法备案系统:如何完成算法备案流程
    互联网信息服务算法备案系统
    了解互联网信息服务算法备案系统,掌握如何进行算法备案的详细步骤和要求,确保您的互联网服务合规运营。
    52次使用
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    97次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    120次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    221次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    115次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码