当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > Meta加入了视频生产行列,下一站是文生视频

Meta加入了视频生产行列,下一站是文生视频

来源:51CTO.COM 2024-01-02 22:18:02 0浏览 收藏

最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《Meta加入了视频生产行列,下一站是文生视频》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~

文生视频下一站,Meta已经开始视频生视频了

视频到视频(V2V)合成在各个领域都有广泛的应用,比如短视频创作和电影行业。虽然扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面还面临着一些挑战,其中之一就是如何保持视频帧间的时间一致性。在应用I2I模型进行视频合成时,往往会导致帧之间的像素闪烁现象。

为了解决这一问题,Meta GenAI的研究人员与得州大学奥斯汀分校合作,提出了一种名为FlowVid的新的V2V合成框架。FlowVid利用了源视频中的空间条件和时间光流线索,通过给定输入视频和文本提示,能够合成出具有时间一致性的视频。

文生视频下一站,Meta已经开始视频生视频了

  • 论文地址:https://huggingface.co/papers/2312.17681
  • 项目地址:https://jeff-liangf.github.io/projects/flowvid/

FlowVid 展示了出色的灵活性,能够与现有的 I2I 模型顺利合作,实现各种修改,包括风格化、对象交换和局部编辑。在合成效率方面,FlowVid 能够在短短1.5分钟内生成30 FPS、512×512分辨率的4秒视频,相较于CoDeF、Rerender和TokenFlow,其速度分别快了3.1倍、7.2倍和10.5倍,并且仍然能够保持合成视频的高质量。

让我们先来看一下合成效果,例如将视频中的人物转换成「希腊雕塑」的形态。

文生视频下一站,Meta已经开始视频生视频了

将吃竹子的大熊猫以国画的形式呈现,然后将大熊猫替换成考拉。

文生视频下一站,Meta已经开始视频生视频了

跳跳绳的场景在《文字玩出花》中可以实现丝滑的切换,同时还可以将人物角色更换成蝙蝠侠。

文生视频下一站,Meta已经开始视频生视频了

方法简介

一些研究采用流来导出像素对应关系,从而产生两帧之间的像素级映射,这种对应关系随后用于获取遮挡掩码或构建规范图像。然而,如果流估计不准确,这种硬约束可能就会出现问题。

FlowVid 首先使用常见的 I2I 模型编辑第一帧,然后传播这些编辑到连续帧,使得模型能够完成视频合成的任务。

具体来说,FlowVid 执行从第一帧到后续帧的流变形(flow warp)。这些变形的帧将遵循原始帧的结构,但包含一些遮挡区域(标记为灰色),如图 2 (b) 所示。

文生视频下一站,Meta已经开始视频生视频了

如果使用流作为硬约束,例如修复遮挡区域,则不准确的估计将持续存在。因此,该研究尝试引入额外的空间条件,例如图 2 (c) 中的深度图,以及时间流条件。联合时空条件将纠正不完美的光流,从而得到图 2 (d) 中一致的结果。

研究者基于 inflated 空间控制 I2I 模型构建了一个视频扩散模型。他们利用空间条件(如深度图)和时间条件(流变形视频)对模型进行训练,以预测输入视频。

文生视频下一站,Meta已经开始视频生视频了

在生成过程中,研究者采用编辑 - 传播程序:(1) 用流行的 I2I 模型编辑第一帧。(2) 使用本文模型在整个视频中传播编辑内容。解耦设计允许他们采用自回归机制:当前批次的最后一帧可以是下一批次的第一帧,从而使其能够生成冗长的视频。

实验及结果

细节设置

研究者使用 Shutterstock 的 100k 个视频来训练模型。对于每个训练视频,研究者按顺序采样 16 个间隔为 {2,4,8} 的帧,这些帧代表持续时间为 {1,2,4} 秒的视频(视频的 FPS 为 30)。所有图像的分辨率都通过中心裁剪设置为 512×512。模型的训练是在每个 GPU 上以 1 的批量大小进行的,总共使用 8 个 GPU,总批量大小为 8。实验使用了 AdamW 优化器,学习率为 1e-5,迭代次数为 100k。

在生成过程中,研究者首先使用训练好的模型生成关键帧,然后使用现成的帧插值模型(如 RIFE )生成非关键帧。默认情况下,以 4 的间隔生成 16 个关键帧,相当于 8 FPS 下的 2 秒片段。然后,研究者使用 RIFE 将结果插值到 32 FPS。他们采用比例为 7.5 的无分类器引导,并使用 20 个推理采样步骤。此外,研究者还使用了零信噪比(Zero SNR)噪声调度器 。他们还根据 FateZero ,融合了在对输入视频中的相应关键帧进行 DDIM 反转时获得的自注意力特征。

研究者从公开的 DAVIS 数据集中选取了 25 个以物体为中心的视频,涵盖人类、动物等。针对这些视频,研究者人工设计了 115 个 prompt,范围包括风格化到物体替换。此外,他们还收集了 50 个 Shutterstock 视频,并为这些视频设计了 200 个 prompt。研究者对以上视频进行了定性和定量的比较。

定性结果

在图 5 中,研究者定性地将本文方法与几种代表性的方法进行了比较。当输入视频中的运动量较大时,CoDeF 产生的输出结果会出现明显的模糊,在男子的手和老虎的脸部等区域可以观察到。Rerender 通常无法捕捉到较大的运动,如左侧示例中的桨叶运动。TokenFlow 偶尔会难以按照提示进行操作,例如在左侧示例中将男子变为海盗。相比之下,本文的方法在编辑能力和视频质量方面更具优势。

文生视频下一站,Meta已经开始视频生视频了

定量结果

研究者进行了一项人类评估,以将本文的方法与 CoDeF 、Rerender 和 TokenFlow 进行比较。研究者向参与者展示了四段视频,并要求他们在考虑时间一致性和文本对齐的情况下,找出哪段视频的质量最好。详细结果见表。本文方法取得了 45.7% 的偏好,优于其他三种方法。表 1 中还展示了各方法的管道运行时间,对比了它们的运行效率。本文方法(1.5 分钟)快于 CoDeF(4.6 分钟)、Rerender(10.8 分钟)和 TokenFlow(15.8 分钟),分别快 3.1 倍、7.2 倍和 10.5 倍。

文生视频下一站,Meta已经开始视频生视频了

消融实验

研究者将图 6(a)中的四种条件进行组合研究,分别是 (I) 空间控制:例如深度图 ;(II) 流变形视频:从第一帧使用光流变形的帧;(III) 流遮挡遮罩指示哪些部分被遮挡(标记为白色);(IV) 第一帧。

文生视频下一站,Meta已经开始视频生视频了

图 6(b)中评估了这些条件的组合,通过与包含所有四种条件的完整模型的胜率来评估它们的有效性。由于缺乏时间信息,纯空间条件的胜率仅为 9%。加入流变形视频后,胜率大幅提高至 38%,突出了时间引导的重要性。研究者使用灰色像素表示被遮挡的区域,这可能会与图像中的原始灰色相混淆。为了避免可能出现的混淆,他们进一步加入了二进制流遮挡掩码,更好地帮助模型识别哪部分被遮挡。胜率进一步提高到 42%。最后,研究者增加了第一帧条件,以提供更好的纹理引导,这在遮挡掩码较大而原始像素剩余较少时尤为有用。

研究者在 FlowVid 中研究了两种类型的空间条件:canny 边缘和深度图。在图 7(a)所示的输入帧中,从熊猫的眼睛和嘴巴可以看出,canny 边缘比深度图保留了更多细节。空间控制的强度反过来会影响视频编辑。在评估过程中,研究者发现,当希望尽可能保持输入视频的结构(如风格化)时,canny 边缘效果更好。如果场景变化较大,如物体交换,需要更大的编辑灵活性时,深度图的效果会更好。

如图 8 所示,虽然 ϵ-prediction 通常用于扩散模型的参数化,但研究者发现它可能会出现不自然的跨帧全局色彩偏移。尽管这两种方法都使用了相同的流变形视频,但 ϵ-prediction 带来了不自然的灰暗色彩。这种现象在图像到视频中也有发现。

文生视频下一站,Meta已经开始视频生视频了

局限

虽然 FlowVid 取得了显著的性能,但也存在一些局限性。首先,FlowVid 严重依赖于第一帧的生成,而第一帧在结构上应与输入帧保持一致。如图 9(a)所示,编辑后的第一帧将大象的后腿识别为前鼻子。错误的鼻子会传播到下一帧,导致最终预测结果不理想。其次,是当摄像机或物体移动得太快,以至于出现大面积遮挡时。在这种情况下,FlowVid 会猜测缺失的区域,甚至产生幻觉。如图 9 (b) 所示,当芭蕾舞演员转动身体和头部时,整个身体部分都被遮挡住了。FlowVid 成功地处理了衣服,但却将后脑勺变成了前脸,如果在视频中显示,这将十分惊悚。

文生视频下一站,Meta已经开始视频生视频了

更多详细内容,请参阅原论文。

文中关于数据,视频的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Meta加入了视频生产行列,下一站是文生视频》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
华为推出改进版Transformer架构,盘古-π解决特征缺陷问题,带来超越LLaMA的同等规模性能华为推出改进版Transformer架构,盘古-π解决特征缺陷问题,带来超越LLaMA的同等规模性能
上一篇
华为推出改进版Transformer架构,盘古-π解决特征缺陷问题,带来超越LLaMA的同等规模性能
华为、小米等 69 家企业获得工信部新版无线电发射设备型号核准证书
下一篇
华为、小米等 69 家企业获得工信部新版无线电发射设备型号核准证书
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 互联网信息服务算法备案系统:如何完成算法备案流程
    互联网信息服务算法备案系统
    了解互联网信息服务算法备案系统,掌握如何进行算法备案的详细步骤和要求,确保您的互联网服务合规运营。
    54次使用
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    99次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    123次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    227次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    118次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码