当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

来源:机器之心 2024-10-03 09:51:41 0浏览 收藏

来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!

我们用17个Prompt,实测了一把字节的两大视频生成模型。


字节憋了个大招。

9 月 24 日,字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成。

这两款模型,一个名为 PixelDance(以下简称 P 模型),一个名为 Seaweed(以下简称 S 模型),不仅在审美、动幅上提升了一个 level,还破解了多主体互动和一致性难题。

话不多说,先整几个视频让大家感受下:

一位年轻女生微簇眉头,生气地戴上一副墨镜,这时,男主角入画,紧紧抱住了她。

这段 10 秒的镜头中,人物面部表情变化自然,没有任何虚化崩坏。字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点再如,一只金毛小狗在草地上追逐泡泡。 字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点                           (AI 自动配乐) 

以及一个 3D 风格的可爱小女孩正在跳舞。 字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点                         (AI 自动配乐) 

看来,字节这次是把攒了许久的绝活儿,一股脑全倒出来了。

目前,新款豆包视频生成模型正在即梦 AI 内测版小范围测试,未来将逐步开放给所有用户。

我们也在第一时间拿到内测资格,接下来,就奉上新鲜出炉的一手实测。

解锁多动作、多主体

目前,市面上大部分视频生成模型,只能完成简单指令或者单一动作。而这次,豆包视频生成模型一顿升级,不仅可以遵循复杂 Prompt,还能捕捉多动作序列和主体互动。

例如,梵高站在自己的画作前,捂嘴大笑起来,脸上的褶子都清晰可见;随即又秒变严肃,手缓缓落下,捋捋自己的小胡子。

整套动作行云流水,表情自然逼真。字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点再比如,我们输入 Prompt:两名宇航员行走在夜晚繁华的街道上。 字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点
两名身穿宇航服的航天员,一前一后漫步在繁华街道上,身后人来人往,两侧的建筑亮起了绚丽的灯光和店招。

众所周知,AI 最容易犯的毛病之一,就是左右腿不分,或者惊现四条腿。

而在豆包视频模型中,二人走路姿势正常,几乎与真人无异,没有模糊、扭曲,也没有出现各种诡异画面。

我们还输入了一段形容词贼多的 Prompt:一只蜗牛在雨后的森林地面上缓缓爬行,它身后留下一条闪闪发光的粘液轨迹。蜗牛的触角谨慎地移动着,它的壳的每一段都有精细的纹理。一个摄像机跟踪着蜗牛的缓慢旅程。镜头非常接近,以至于蜗牛壳和身体上的水滴清晰可见,地面的细节也展现得非常清楚。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

豆包模型生成的视频中,蜗牛柔软的躯体缓慢向后蠕动,触角也随之摇晃。硬硬的壳上有着精细的纹理,上面还沾着细小的水珠。

由于是特写镜头,森林的背景自然虚化,而雨后地面的水洼则清晰可见。

Prompt:许多水母在水下游动,它们的身体透明,在深海中发着光。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

画面中出现了大大小小的透明水母,它们轻轻张开伞盖,再紧紧收缩,触手也在水中自由摆动。

Prompt:写实,一个小女孩吹生日蜡烛,然后笑了。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

镜头中,一个头戴寿星帽的小女孩,张着嘴巴吹蜡烛,脸上露出微笑。同时,身后的亲友团,或鼓掌、或拍照。该视频中的人物不仅多元,动幅也很大。

动作灵活,运镜酷炫

这次豆包视频模型还有一大特点 —— 镜头多样。

变焦、环绕、平摇、缩放、目标跟随等超多镜头语言,它都能灵活控制视角,而且视频细节更丰满,表情更丰富。

Prompt:一个推进镜头,沿着树木成行的郊区住宅街道拍摄,白天,天空晴朗湛蓝,色彩饱和,对比度高。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

随着镜头缓慢推进,干净的街道、树木掩映的成排小别墅映入眼帘,画面中还展示了优秀的光影效果。

Prompt: 北极光在北极天空中舞动,星星闪烁,白雪覆盖的景观的延时摄影。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

天空舞动的极光,在雪地上映射出相应的颜色。豆包模型生成的这段延时摄影,简直和纪录片拍摄的如出一辙。

我们还试了下图生视频,上传图片后,输入 Prompt:金鱼游动,水中冒着气泡。

别看这个 Prompt 简单, 豆包模型的「脑回路」却复杂得很。不仅完美遵循文字指令,还学会了摇镜头。字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点
画面一开始,水缸中的金鱼开始游动,并伴随着大量气泡。随后,镜头一拉,现出女孩全身,她在水中缓缓转过身,发丝和宽松的衣摆在水中的漂浮感,以及头顶露出水面的状态,豆包模型均捕捉到位。

此外,豆包视频模型还采用全新设计的扩散模型训练方法,成功攻克了多镜头切换时难以保持一致性的困扰,可 10 秒讲述一个起承转合的故事。

比如,用它生成一段睡美人的故事。字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点
睡美人躺在床上陷入沉睡,窗外的小鸟叽叽喳喳也吵不醒她,这时一位王子俯下身吻了睡美人,试图唤醒她。

在这个 prompt 中,涉及多个镜头的切换,但主体、风格、氛围和逻辑仍能保持一致性。

审美高级,风格多变

豆包新模型采用深度优化的 Transformer 结构,大幅提升了视频生成的泛化能力,黑白、3D 动画、2D 动画、国画、厚涂等多种风格,它通通支持。

比如,一只戴着墨镜颇具喜感的北极熊,蹬着四只爪子在海里畅游,水面上泛起微波,甚至还折射出了北极熊的影子。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

                     (Prompt: 戴着墨镜的北极熊在海里游泳。)

再来个动画风格的。

身穿灰色时尚卫衣的猫咪,迈着「六亲不认」的步伐,走在星光闪耀的 T 台上。

其中,猫咪眨巴着眼睛,毛发和衣服褶皱处理得也相当逼真,胸前的两根衣带也能随着步伐而摆动。字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点
                    (Prompt:一只拟人小猫正在 T 台上走秀。)

呆萌二哈一身潮范儿,头戴棒球帽,手端咖啡杯,仰起头,张开嘴,就将其一饮而尽,随后,P 模型发挥想象力,让二哈顺手将咖啡杯放置在两侧的椅子上,整套动作行云流水,很是流畅自然。字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点
                   (Prompt:二哈正在喝咖啡。)

阳光明媚,树影斑驳,两只拟人化的企鹅,戴着 Fashion 的墨镜,舒服地坐在沙滩椅上晒着日光浴,时不时还唠上两句磕儿。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

                    (Prompt:动画风格,两只拟人化的企鹅,戴着墨镜,坐在沙滩椅上晒太阳。)

两只卡哇伊的毛绒小怪物,摇头晃脑地跳着舞,画风有种迪士尼的感觉。

豆包视频模型对于细节的把握也是相当到位,比如小怪物晃动身体时,头上的毛发也会随之起舞等。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

                        (Prompt:两只毛茸茸的微型可爱怪物,正在跳舞,3D 渲染,Octane,柔和的照明,梦幻般的散景效果,电影感。)

皮卡丘晃动着尾巴,和哆啦 A 梦玩亲亲,细节层次丰富,光影随着主体运动而变化,大幅提升画面视觉审美。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

                      (Prompt:皮卡丘和哆啦A梦开心地跳着,然后拥抱在一起。)

不仅如此,我们还可以拿它制作广告大片。

例如,先通过即梦的文生图功能,搞出一张香水的商品图。

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

然后再通过图生视频功能,输入 Prompt:蓝色的烟雾缓缓升起。

效果如下:

字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点

大家觉得豆包视频生成模型水平咋样呢?来评论区聊聊吧。

终于介绍完啦!小伙伴们,这篇关于《字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
使用 Nodejs 构建实时仪表板使用 Nodejs 构建实时仪表板
上一篇
使用 Nodejs 构建实时仪表板
PHP 函数与第三方库在项目开发中的协作方式?
下一篇
PHP 函数与第三方库在项目开发中的协作方式?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    7次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    26次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码