当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

来源：机器之心 2024-10-03 09:51:41 0浏览收藏

热门推荐

漫画APP

漫画阅读推荐，热门漫画资源更好找

来到golang学习网的大家，相信都是编程学习爱好者，希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点》，介绍一下，希望对大家的知识积累有所帮助，助力实战开发！

我们用17个Prompt，实测了一把字节的两大视频生成模型。

字节憋了个大招。

9 月 24 日，字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展，一口气发布了两款视频生成大模型，正式宣告进军 AI 视频生成。

这两款模型，一个名为 PixelDance（以下简称 P 模型），一个名为 Seaweed（以下简称 S 模型），不仅在审美、动幅上提升了一个 level，还破解了多主体互动和一致性难题。

话不多说，先整几个视频让大家感受下：

一位年轻女生微簇眉头，生气地戴上一副墨镜，这时，男主角入画，紧紧抱住了她。

这段 10 秒的镜头中，人物面部表情变化自然，没有任何虚化崩坏。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

再如，一只金毛小狗在草地上追逐泡泡。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（AI 自动配乐）}

以及一个 3D 风格的可爱小女孩正在跳舞。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（AI 自动配乐）}

看来，字节这次是把攒了许久的绝活儿，一股脑全倒出来了。

目前，新款豆包视频生成模型正在即梦 AI 内测版小范围测试，未来将逐步开放给所有用户。

我们也在第一时间拿到内测资格，接下来，就奉上新鲜出炉的一手实测。

解锁多动作、多主体

目前，市面上大部分视频生成模型，只能完成简单指令或者单一动作。而这次，豆包视频生成模型一顿升级，不仅可以遵循复杂 Prompt，还能捕捉多动作序列和主体互动。

例如，梵高站在自己的画作前，捂嘴大笑起来，脸上的褶子都清晰可见；随即又秒变严肃，手缓缓落下，捋捋自己的小胡子。

整套动作行云流水，表情自然逼真。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

再比如，我们输入 Prompt：两名宇航员行走在夜晚繁华的街道上。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

两名身穿宇航服的航天员，一前一后漫步在繁华街道上，身后人来人往，两侧的建筑亮起了绚丽的灯光和店招。

众所周知，AI 最容易犯的毛病之一，就是左右腿不分，或者惊现四条腿。

而在豆包视频模型中，二人走路姿势正常，几乎与真人无异，没有模糊、扭曲，也没有出现各种诡异画面。

我们还输入了一段形容词贼多的 Prompt：一只蜗牛在雨后的森林地面上缓缓爬行，它身后留下一条闪闪发光的粘液轨迹。蜗牛的触角谨慎地移动着，它的壳的每一段都有精细的纹理。一个摄像机跟踪着蜗牛的缓慢旅程。镜头非常接近，以至于蜗牛壳和身体上的水滴清晰可见，地面的细节也展现得非常清楚。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

豆包模型生成的视频中，蜗牛柔软的躯体缓慢向后蠕动，触角也随之摇晃。硬硬的壳上有着精细的纹理，上面还沾着细小的水珠。

由于是特写镜头，森林的背景自然虚化，而雨后地面的水洼则清晰可见。

Prompt：许多水母在水下游动，它们的身体透明，在深海中发着光。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

画面中出现了大大小小的透明水母，它们轻轻张开伞盖，再紧紧收缩，触手也在水中自由摆动。

Prompt：写实，一个小女孩吹生日蜡烛，然后笑了。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

镜头中，一个头戴寿星帽的小女孩，张着嘴巴吹蜡烛，脸上露出微笑。同时，身后的亲友团，或鼓掌、或拍照。该视频中的人物不仅多元，动幅也很大。

动作灵活，运镜酷炫

这次豆包视频模型还有一大特点 —— 镜头多样。

变焦、环绕、平摇、缩放、目标跟随等超多镜头语言，它都能灵活控制视角，而且视频细节更丰满，表情更丰富。

Prompt：一个推进镜头，沿着树木成行的郊区住宅街道拍摄，白天，天空晴朗湛蓝，色彩饱和，对比度高。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

随着镜头缓慢推进，干净的街道、树木掩映的成排小别墅映入眼帘，画面中还展示了优秀的光影效果。

Prompt: 北极光在北极天空中舞动，星星闪烁，白雪覆盖的景观的延时摄影。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

天空舞动的极光，在雪地上映射出相应的颜色。豆包模型生成的这段延时摄影，简直和纪录片拍摄的如出一辙。

我们还试了下图生视频，上传图片后，输入 Prompt：金鱼游动，水中冒着气泡。

别看这个 Prompt 简单，豆包模型的「脑回路」却复杂得很。不仅完美遵循文字指令，还学会了摇镜头。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

画面一开始，水缸中的金鱼开始游动，并伴随着大量气泡。随后，镜头一拉，现出女孩全身，她在水中缓缓转过身，发丝和宽松的衣摆在水中的漂浮感，以及头顶露出水面的状态，豆包模型均捕捉到位。

此外，豆包视频模型还采用全新设计的扩散模型训练方法，成功攻克了多镜头切换时难以保持一致性的困扰，可 10 秒讲述一个起承转合的故事。

比如，用它生成一段睡美人的故事。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

睡美人躺在床上陷入沉睡，窗外的小鸟叽叽喳喳也吵不醒她，这时一位王子俯下身吻了睡美人，试图唤醒她。

在这个 prompt 中，涉及多个镜头的切换，但主体、风格、氛围和逻辑仍能保持一致性。

审美高级，风格多变

豆包新模型采用深度优化的 Transformer 结构，大幅提升了视频生成的泛化能力，黑白、3D 动画、2D 动画、国画、厚涂等多种风格，它通通支持。

比如，一只戴着墨镜颇具喜感的北极熊，蹬着四只爪子在海里畅游，水面上泛起微波，甚至还折射出了北极熊的影子。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（Prompt: 戴着墨镜的北极熊在海里游泳。)}

再来个动画风格的。

身穿灰色时尚卫衣的猫咪，迈着「六亲不认」的步伐，走在星光闪耀的 T 台上。

其中，猫咪眨巴着眼睛，毛发和衣服褶皱处理得也相当逼真，胸前的两根衣带也能随着步伐而摆动。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（Prompt：一只拟人小猫正在 T 台上走秀。）}

呆萌二哈一身潮范儿，头戴棒球帽，手端咖啡杯，仰起头，张开嘴，就将其一饮而尽，随后，P 模型发挥想象力，让二哈顺手将咖啡杯放置在两侧的椅子上，整套动作行云流水，很是流畅自然。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（Prompt：二哈正在喝咖啡。）}

阳光明媚，树影斑驳，两只拟人化的企鹅，戴着 Fashion 的墨镜，舒服地坐在沙滩椅上晒着日光浴，时不时还唠上两句磕儿。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（Prompt：动画风格，两只拟人化的企鹅，戴着墨镜，坐在沙滩椅上晒太阳。）}

两只卡哇伊的毛绒小怪物，摇头晃脑地跳着舞，画风有种迪士尼的感觉。

豆包视频模型对于细节的把握也是相当到位，比如小怪物晃动身体时，头上的毛发也会随之起舞等。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（Prompt：两只毛茸茸的微型可爱怪物，正在跳舞，3D 渲染，Octane，柔和的照明，梦幻般的散景效果，电影感。）}

皮卡丘晃动着尾巴，和哆啦 A 梦玩亲亲，细节层次丰富，光影随着主体运动而变化，大幅提升画面视觉审美。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

^{（Prompt：皮卡丘和哆啦A梦开心地跳着，然后拥抱在一起。）}

不仅如此，我们还可以拿它制作广告大片。

例如，先通过即梦的文生图功能，搞出一张香水的商品图。

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

然后再通过图生视频功能，输入 Prompt：蓝色的烟雾缓缓升起。

效果如下：

字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

大家觉得豆包视频生成模型水平咋样呢？来评论区聊聊吧。

终于介绍完啦！小伙伴们，这篇关于《字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识，快来关注吧！

字节跳动火山引擎产业 Seaweed

版本声明

本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

使用 Nodejs 构建实时仪表板

使用 Nodejs 构建实时仪表板

上一篇: 使用 Nodejs 构建实时仪表板

PHP 函数与第三方库在项目开发中的协作方式？

下一篇: PHP 函数与第三方库在项目开发中的协作方式？

查看更多

最新文章

科技周边 · 人工智能 | 3天前 | 人工智能 · rag · AI应用 · 知识库 · 向量检索 · 故障复盘 · 人工智能检索增强生成 RAG 向量检索证据门禁评测样本 AI应用复盘

RAG 应用答错怎么复盘：检索命中、证据门禁和评测样本怎么补

468浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · ai agent · AI应用 · 工具调用 · 权限边界 · 审计链路 · 人工智能权限控制 AI Agent 工具调用审批链路审计回放上线指标

AI Agent 工具调用怎么落地：权限闸门、审批链路和上线观察指标

343浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427浏览收藏
科技周边 · 人工智能 | 1星期前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 3星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 3星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

4427次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

4079次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

4062次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

4252次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

4223次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码