当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 视频生成技术迈入新纪元?谷歌VideoPoet大型模型引发网友革命性讨论

视频生成技术迈入新纪元?谷歌VideoPoet大型模型引发网友革命性讨论

来源:机器之心 2024-03-22 09:27:22 0浏览 收藏

谷歌近期推出名为 VideoPoet 的大型语言模型,引发业界热议。VideoPoet 是一款零样本视频生成工具,可执行多种任务,包括文本到视频、图像到视频、风格迁移和视频转语音。其效果令人惊艳,可构建多样化且流畅的运动。VideoPoet 的出现标志着视频生成技术迈入新纪元,展示了语言模型在该领域的巨大潜力。

蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。


2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。

本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。

VideoPoet 既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

消息一出,有很多人表示欢迎:看看目前的几个成品效果不错,大模型技术发展的速度也太快了。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

有人对于这个大模型生成视频的长度表示惊讶:

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

来源:https://twitter.com/cybersphere_ai/status/1737257729167966353

还有人表示这是一个革命性的大语言模型。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

也有人呼吁,谷歌需要赶紧把 VideoPoet 开源了,大趋势不等人。

随着生成式 AI 的发展,最近出现了一波新的视频生成模型,这些模型展示了令人惊叹的画面质量。当前视频生成的瓶颈之一是产生连贯的大动作。但在许多情况下,即使是领先的模型也只能产生较小的运动,或者当产生较大的运动时,会表现出明显的伪影。

为了探索语言模型在视频生成中的应用,来自谷歌的研究者引入了一种大语言模型(LLM)VideoPoet,能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、 视频修复和扩展,以及视频转音频。

VideoPoet 效果展示

文本生成视频

提示:一只狗戴着耳机听音乐,细节丰富,8k。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):一条从嘴里射出激光束的鲨鱼;泰迪熊手牵着手走在雨天的第五大道上;举铁的小鸡。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):黄色蒲公英花瓣制成的狮子在咆哮;地球表面发生大规模爆炸;一匹马在梵高的星夜中驰骋;穿着盔甲的松鼠骑着鹅;熊猫在自拍。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

图像生成视频

对于图像到视频,VideoPoet 可以获取输入图像并通过提示将其动画化。

蒙娜丽莎开始打哈欠,只要输入一张图片,外加一句提示:一个女人打哈欠。就会得到下面的效果。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

提示(从左到右):一艘船在波涛汹涌的大海上航行,有雷暴和闪电,油画风格;飞过有许多闪烁星星的星云;大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下面浮动的云海。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

将视频风格化

VideoPoet 还能够根据文本提示对输入视频进行风格化。

提示(从左到右):泰迪熊在干净的冰湖上滑冰;一只金属色的狮子在熔炉的光芒下咆哮。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

生成音频

VideoPoet 还能够生成音频。首先让模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测画面的音频。这样一来,VideoPoet 能够从单个模型生成视频和音频。视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
长视频

VideoPoet 还能生成长视频,默认是 2 秒。通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频。下面是 VideoPoet 从文本输入生成长视频的示例展示。提示:FPV 镜头展示了丛林中一座非常锋利的精灵石城,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

扩展视频

用户可以改变提示,从而扩展视频。原始视频是两只浣熊骑着摩托车在松树环绕的山路上行驶,8k。扩展后的视频是两只浣熊骑着摩托车,浣熊身后落下流星,流星撞击地球并爆炸。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

交互式视频编辑

对于提供的输入视频(最左边),用户可以改变物体的运动来执行不同的动作。如下所示,中间三个没有文本提示,最后一个文本提示为:烟雾背景下启动。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频修复

VideoPoet 可以在视频被遮住的部分添加细节,也可以选择通过文本引导进行修复。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

为了展示 VideoPoet 的功能,谷歌还制作了一部由 VideoPoet 生成的多个短片组成的小短片。剧本是 Bard 编写的,是关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提示列表。然后,谷歌为每个提示生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下面的最终视频。视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术
方法简介

如下图所示,VideoPoet 可以将输入图像动画化以生成一段视频,并且可以编辑视频或扩展视频。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

在风格化方面,该模型接收表征深度和光流的视频,以文本指导的风格绘制内容。

视频生成器

使用 LLM 进行训练的一个关键优势是,可以重复使用现有 LLM 训练基础设施中引入的许多可扩展的效率改进。然而,LLM 是在离散 token 上运行的,这使得视频生成具有挑战性。而视频和音频 tokenizer 可以用来将视频和音频剪辑编码为离散 token 序列,并且也可以转换回原始表征形式。

通过使用多个 tokenizer(用于视频和图像的 MAGVIT V2 和用于音频的 SoundStream),VideoPoet 训练自回归语言模型来学习跨视频、图像、音频和文本的多个模态。一旦模型生成以某些上下文为条件的 token,就可以使用 tokenizer 解码器将它们转换回可视化的表征形式。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

评估结果

研究团队使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,该研究在各种不同的 prompt 下运行了所有模型,没有挑选示例,并要求人类评估者进行偏好评分。

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

平均而言,在遵循 prompt 方面,人们认为 VideoPoet 中 24-35% 的示例比竞争模型更好,而竞争模型的这一比例为 8-11%。评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为生成视频的动作更有趣,而其他模型的这一比例为 11-21%。

参考链接:
https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
https://sites.research.google/videopoet/stylization/

文中关于产业,视频生成的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《视频生成技术迈入新纪元?谷歌VideoPoet大型模型引发网友革命性讨论》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
找不到XDP源码中的头文件进行Go程序编译找不到XDP源码中的头文件进行Go程序编译
上一篇
找不到XDP源码中的头文件进行Go程序编译
Go代码无法成功在后台运行
下一篇
Go代码无法成功在后台运行
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    13次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码