当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

来源:机器之心 2024-08-05 16:06:20 0浏览 收藏

从现在开始,我们要努力学习啦!今天我给大家带来《全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!

AI 图像和视频生成领域又加入了一个颇有实力的玩家。

还记得今年 3 月底,从 AI 初创公司 Stability AI 离职的研究科学家 Robin Rombach 吗?作为开发出文生图模型 Stable Diffusion 的两位主要作者之一,他于 2022 年加入 Stability AI。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

如今,在从 Stability AI 离职近五个月后,Robin Rombach 发推宣布了自己创业的好消息!

他成立了「Black Forest Labs」,旨在推进用于图像和视频的 SOTA 高质量生成式深度学习模型,并开放给尽可能多的人使用。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

团队成员由杰出的 AI 研究者和工程师组成,他们之前的代表性工作包括 VQGAN 和 Latent Diffusion、图像和视频生成领域的 Stable Diffusion 模型(包括 Stable Diffusion XL、Stable Video Diffusion 和 Rectified Flow Transformers)以及用于超快实时图像合成的 Adversarial Diffusion Distillation。

值得注意的是,除了 Robin Rombach 之外,Stable Diffusion 还有三位作者成为了创始团队成员,包括 Andreas Blattmann、 Dominik Lorenz 和 Patrick Esser。他们都在今年早些时候离开了 Stability AI,有人猜测他们当初离开就是为了自己创业。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

目前,该 Labs 已经完成 3100 万美元的种子轮融资,由 Andreessen Horowitz 领投。其他投资者包括了天使投资人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和创业专家。此外还获得了来自 General Catalyst 和 MätchVC 的后续投资。

该 Labs 还成立了顾问委员会,成员包括在内容创作行业具有广泛经验的科技大佬 Michael Ovitz 和神经风格迁移先驱、欧洲开放 AI 研究的顶级专家 Matthias Bethge 教授。

当然,Black Forest Labs 推出了首个模型系列「FLUX.1」,包含了以下三个变体模型。
全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
第一个变体是 FLUX.1 [pro],它是全新的 SOTA 文生图模型,具有极其丰富的图像细节、极强的 prompt 遵循能力和多样化风格。目前可以通过 API 使用。

  • API 地址:https://docs.bfl.ml/
全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
第二个是 FLUX.1 [dev],它是 FLUX.1 [pro] 的开放权重、非商用变体,并直接基于后者蒸馏而成。该模型的表现优于 Midjourney 和 Stable Diffusion 3 等其他图像模型。推理代码和权重已经放在了 GitHub 上。下图是与竞品图像模型的比较。

  • GitHub 地址:https://github.com/black-forest-labs/flux
全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
第三个是开源的 FLUX.1 [schnell],它是超高效的 4-step 模型,遵循了 Apache 2.0 协议。该模型在性能上与 [dev]、[pro] 非常接近,可以在 Hugging Face 上使用。

  • Hugging Face 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
与此同时,Black Forest Labs 也开始宣传自己了。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

下一步的目标是推出所有人可用的 SOTA 文生视频模型,大家可以期待一波了!

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

一出手即王炸:文生图模型系列「FLUX.1」来袭

这次 Black Forest Labs 推出的三款模型,均采用了多模态和并行扩散 Transformer 的混合架构。不同于其他家将一系列模型按参数量分为「中杯」、「大杯」、「超大杯」,FLUX.1 家族的成员统一扩展为 120 亿参数的庞大规模。
全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
研究团队采用了流匹配(Flow Matching)框架对之前 SOTA 扩散模型进行了升级。从官方博客的注释中可以推测,研究团队沿用了还在 Stability AI 任职时(今年 3 月)提出的 Rectified flow+Transformer 方法。
全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
  • 论文链接:https://arxiv.org/pdf/2403.03206.pdf

他们还引入了旋转位置嵌入和并行注意力层。这些方法有效提高了模型生成图片的性能,在硬件设备上生成图片的速度也变得更快了。

这次 Black Forest Labs 并未公开模型的详细技术,不过更详细的技术报告将很快公布。

这三款模型在各自的领域都确立了新标准。无论是生成图像的美观度、图像与文本提示词的附和度、尺寸 / 宽高比可变性、还是输出格式的多样性, FLUX.1 [pro] 和 FLUX.1 [dev] 都超越了一系列当红图片生成模型,如 Midjourney v6.0、DALL・E 3 (HD) 以及老东家 SD3-Ultra。

FLUX.1 [schnell] 是迄今为止最先进的少步骤模型(few-step model),不仅超越了同类竞争对手,还超越了像 Midjourney v6.0 和 DALL・E 3 (HD) 这样的强大非蒸馏模型。

模型经过专门微调,以保留预训练阶段的全部输出多样性。与当前最先进的技术相比,FLUX.1 系列模型还保留了充分的进步空间。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

所有 FLUX.1 系列的模型都支持多种纵横比和分辨率,从 0.1 到 2 百万像素,都能拿下。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

已经有动作快的网友抢先体验上了,看来 Black Forest Labs 反复强调的「最强」,并不只是自卖自夸。

简单的提示词,就可以打造出这样的效果,仔细看羊驼身上垫子的花纹,也没有出现扭曲和变形。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

                           提示词:An emerald Emu riding on top of a white llama.

如果不说这是 AI 生成的图片,也挺难分辨这是不是摄影师拍下的照片。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

                       提示词:A horse is playing with two aligators at the river.

含有文字的图像,也能轻松拿捏,景深也处理得很符合真实的镜头感。
全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
三款模型中,性能稍弱的 FLUX.1 [schnell],用起来也是又快又强,有网友晒出在 Mac 上运行的体验,不得不感慨,真是立等可取。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

不太了解 Stable Diffusion 的作者们和 Stability AI 之间「恩怨情仇」的网友感叹道:不知道从哪里冒出来了个文生图模型,简直强到可怕。

全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源

关于 Stable Diffusion 作者和前司 Stability AI 的故事,可以看看本站之前的报道:价值1亿美金时,Stable Diffusion背后的团队开始互撕,谁才是真官方?

除了三款最强的文生图模型,Black Forest Labs 还憋着「大招」呢。有了如此强大的图片生成模型的能力,Black Forest Labs 为视频生成模型打下了坚实的基础,正如他们所预告的,这些计算机视觉的顶级科学家们正朝着为所有人提供的最先进文生视频技术的目标前进。

参考链接:
公司博客:https://blackforestlabs.ai/announcements/

到这里,我们也就讲完了《全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于产业,FLUX.1的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
ZED-分数计算器ZED-分数计算器
上一篇
ZED-分数计算器
离开V社之后,他做了一款“扮演猫咪”的游戏
下一篇
离开V社之后,他做了一款“扮演猫咪”的游戏
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    16次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    27次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    24次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    28次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码