加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样
哈喽!今天心血来潮给大家带来了《加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!
相信很多人已经领会过生成式 AI 技术的魅力,特别是在经历了 2022 年的 AIGC 爆发之后。以 Stable Diffusion 为代表的文本到图像生成技术一度风靡全球,无数用户涌入,借助 AI 之笔表达自己的艺术想象……
相比于图像编辑,视频编辑是一个更具有挑战性的议题,它需要合成新的动作,而不仅仅是修改视觉外观,此外还需要保持时间上的一致性。
在这条赛道上探索的公司也不少。前段时间,谷歌发布的 Dreamix 以将文本条件视频扩散模型(video diffusion model, VDM)应用于视频编辑。
近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图像指定的任何风格,可将现有视频转化为新视频。
论文链接:https://arxiv.org/pdf/2302.03011.pdf
项目主页:https://research.runwayml.com/gen1
2021 年,Runway 与慕尼黑大学的研究人员合作,建立了 Stable Diffusion 的第一个版本。随后英国的一家初创公司 Stability AI 介入,资助了在更多数据上训练模型所需的计算费用。2022 年,Stability AI 将 Stable Diffusion 纳入主流,将其从一个研究项目转变为一个全球现象。
Runway 表示,希望 Gen-1 能像 Stable Diffusion 在图像上所做的那样为视频服务。
「我们已经看到图像生成模型的大爆炸,」Runway 首席执行官兼联合创始人 Cristóbal Valenzuela 说。「我真的相信,2023 年将是视频之年。」
具体来说,Gen-1 支持几种编辑模式:
1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。
2、故事板。将模型变成完全风格化和动画的渲染。
3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。
4、渲染。通过应用输入图像或 prompt,将无纹理渲染变成逼真的输出。
5、定制化。通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。
在该公司官方网站上发布的 demo 中,展示了 Gen-1 如何丝滑地更改视频风格,来看几个示例。
比如将「街道上的人」变成「粘土木偶」,只需要一行 prompt:
或者将「堆放在桌上的书」变成「夜晚的城市景观」:
从「雪地上的奔跑」到「月球漫步」:
年轻女孩,竟然秒变古代先哲:
论文细节
视觉特效和视频编辑在当代媒体领域无处不在。随着以视频为中心的平台的普及,对更直观、性能更强的视频编辑工具的需求也在增加。然而,由于视频数据的时间性,在这种格式下的编辑仍然是复杂和耗时的。最先进的机器学习模型在改善编辑过程方面显示出了巨大的前景,但很多方法不得不在时间一致性和空间细节之间取得平衡。
由于引入了在大规模数据集上训练的扩散模型,用于图像合成的生成方法最近在质量和受欢迎程度上经历了一个快速增长阶段。一些文本条件模型,如 DALL-E 2 和 Stable Diffusion,使新手只需输入一个文本 prompt 就能生成详细的图像。潜在扩散模型提供了有效的方法,通过在感知压缩的空间中进行合成来生成图像。
在本论文中,研究者提出了一个可控的结构和内容感知的视频扩散模型,该模型是在未加字幕的视频和配对的文本 - 图像数据的大规模数据集上训练的。研究者选择用单目深度估计来表征结构,用预训练的神经网络预测的嵌入来表征内容。
该方法在其生成过程中提供了几种强大的控制模式:首先,与图像合成模型类似,研究者训练模型使推断出的视频内容,如其外观或风格,与用户提供的图像或文本 prompt 相匹配(图 1)。其次,受扩散过程的启发,研究者对结构表征应用了一个信息掩蔽过程,以便能够选择模型对给定结构的支持程度。最后,研究者通过一个自定义的指导方法来调整推理过程,该方法受到无分类指导的启发,以实现对生成片段的时间一致性的控制。
总体来说,本研究的亮点如下:
- 通过在预训练图像模型中引入时间层,并在图像和视频上进行联合训练,将潜在扩散模型扩展到了视频生成领域;
- 提出了一个结构和内容感知的模型,在样本图像或文本的指导下修改视频。编辑工作完全是在推理时间内进行的,不需要额外对每个视频进行训练或预处理;
- 展示了对时间、内容和结构一致性的完全控制。该研究首次表明,对图像和视频数据的联合训练能够让推理时间控制时间的一致性。对于结构的一致性,在表征中不同的细节水平上进行训练,可以在推理过程中选择所需的设置;
- 在一项用户研究中,本文的方法比其他几种方法更受欢迎;
- 通过对一小部分图像进行微调,可以进一步定制训练过的模型,以生成更准确的特定主体的视频。
方法
就研究目的而言,从内容和结构的角度来考虑一个视频将是有帮助的。对于结构,此处指的是描述其几何和动态的特征,比如主体的形状和位置,以及它们的时间变化。对于内容,此处将其定义为描述视频的外观和语义的特征,比如物体的颜色和风格以及场景的照明。Gen-1 模型的目标是编辑视频的内容,同时保留其结构。
为了实现这一目标,研究者学习了视频 x 的生成模型 p (x|s, c),其条件是结构表征(用 s 表示)和内容表征(用 c 表示)。他们从输入视频推断出形状表征 s,并根据描述编辑的文本 prompt c 对其进行修改。首先,描述了对生成模型的实现,作为一个条件潜在的视频扩散模型,然后,描述了对形状和内容表征的选择。最后,讨论了模型的优化过程。
模型结构如图 2 所示。
实验
为了评估该方法,研究者采用了 DAVIS 的视频和各种素材。为了自动创建编辑 prompt,研究者首先运行了一个字幕模型来获得原始视频内容的描述,然后使用 GPT-3 来生成编辑 prompt。
定性研究
如图 5 所示,结果证明,本文的方法在一些不同的输入上表现良好。
用户研究
研究者还使用 Amazon Mechanical Turk(AMT)对 35 个有代表性的视频编辑 prompt 的评估集进行了用户研究。对于每个样本,均要求 5 个注解者在基线方法和本文方法之间对比对视频编辑 prompt 的忠实度(「哪个视频更好地代表了所提供的编辑过的字幕?」),然后以随机顺序呈现,并使用多数票来决定最终结果。
结果如图 7 所示:
定量评估
图 6 展示了每个模型使用本文框架一致性和 prompt 一致性指标的结果。本文模型在这两方面的表现都倾向于超越基线模型(即,在图的右上角位置较高)。研究者还注意到,在基线模型中增加强度参数会有轻微的 tradeoff:更大的强度缩放意味着更高的 prompt 一致性,代价是更低的框架一致性。同时他们还观察到,增加结构缩放会导致更高的 prompt 一致性,因为内容变得不再由输入结构决定。
定制化
图 10 展示了一个具有不同数量的定制步骤和不同水平的结构依附性 ts 的例子。研究者观察到,定制化提高了对人物风格和外观的保真度,因此,尽管使用具有不同特征的人物的驱动视频,但结合较高的 ts 值,还是可以实现精确的动画效果。
以上就是《加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样》的详细内容,更多关于图像,特技的资料请关注golang学习网公众号!

- 上一篇
- 您可以通过避免 Windows 11 的新功能来减少其 RAM 使用量

- 下一篇
- iPhone SOS 和医疗 ID:如何自定义和使用安全功能
-
- 要减肥的冰淇淋
- 真优秀,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,看完之后很有帮助,总算是懂了,感谢作者大大分享文章内容!
- 2023-06-07 23:15:26
-
- 生动的皮带
- 这篇技术文章太及时了,很详细,赞 ??,码住,关注作者了!希望作者能多写科技周边相关的文章。
- 2023-05-15 09:00:14
-
- 单纯的高山
- 很棒,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,看完之后很有帮助,总算是懂了,感谢作者分享文章内容!
- 2023-05-01 13:44:23
-
- 有魅力的鼠标
- 太详细了,已加入收藏夹了,感谢大佬的这篇技术贴,我会继续支持!
- 2023-04-30 22:11:59
-
- 瘦瘦的火龙果
- 这篇博文真是及时雨啊,师傅加油!
- 2023-04-23 18:07:34
-
- 可靠的大米
- 这篇技术贴太及时了,细节满满,很棒,已收藏,关注博主了!希望博主能多写科技周边相关的文章。
- 2023-04-22 02:34:40
-
- 科技周边 · 人工智能 | 5小时前 |
- AI证件照怎么拍才符合签证要求?
- 360浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- AI证件照生成趋势:未来怎么变?
- 107浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- HYPIR图像复原大模型引关注
- 121浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- DeepSeek离线更新步骤详解
- 427浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- Photoshop智能修图:DeepSeek一键优化教程
- 214浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 7月摩托销量前十出炉 雅迪大长江领跑榜单
- 442浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- MidjourneyV6新功能:StyleRaw与Stylize使用教程
- 495浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 豆包AI创意库!朋友圈神图评论提升秘诀
- 470浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 文心一言图生图使用教程详解
- 394浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 384次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 380次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 371次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 385次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 400次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览