Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
最近,AI 科技评论发现,国产视频生成模型 Open-Sora 在开源社区悄悄更新了!
现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。
生成个横屏圣诞雪景,发b站:
再生成个竖屏,发抖音:
还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了:
视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ
怎么玩?指路GitHub:https://github.com/hpcaitech/Open-Sora
更酷的是,Open-Sora 依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例 和 详尽的上手教程。
1、Open-Sora技术报告全面解读
最新功能概览
•支持长视频生成;
•视频生成分辨率最高可达720p;
•单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;
•提出了更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;
•开源了最新的自动数据处理全流程。
时空扩散模型ST-DiT-2
多阶段训练
根据Open-Sora技术报告指出,Open-Sora采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。
初始阶段大部分视频采用144p分辨率,同时与图片和 240p,480p 的视频进行混训,训练持续约1周,总步长81k。第二阶段将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。第三阶段进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成,与Open-Sora1.0相比,在多个维度提升了视频生成的质量。
统一的图生视频/视频生视频框架
支持图像和视频条件化处理的掩码策略
此外,作者团队还贴心地为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。
掩码策略配置说明
支持多时间/分辨率/长宽比/帧率训练
OpenAI Sora的技术报告[3]指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,作者团队提出了分桶的策略。
具体怎么实现呢?通过深入阅读作者发布的技术报告,我们了解到,所谓的桶,是(分辨率,帧数,长宽比)的三元组。团队为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前,他们会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。具体来说,他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。
Open-Sora 分桶策略
数据收集和预处理流程
Open-Sora 数据处理流程
2、Open-Sora 性能全方位评测
视频生成效果展示
Open-Sora最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。
比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。
又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。
在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。
城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。
除了风景之外,Open-Sora还能还原各种自然生物。无论是红艳艳的小花:
还是慢悠悠扭头的变色龙, Open-Sora都能生成较为真实的视频。
笔者还尝试了多种prompt测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。
笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。
分辨率:16*240p
分辨率:32*240p
分辨率:64*360p
分辨率:480*854p
我们还可以喂给Open-Sora一张静态图片让它生成短片
Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻,每一帧都是时间的诗篇。
视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ
再比如说我们要对原有视频进行编辑,仅需一个简单的指令,原本明媚的森林便迎来了一场鹅毛大雪。
我们也能让Open-Sora 生成高清的图片
值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。
权重下载地址:https://github.com/hpcaitech/Open-Sora
当前局限与未来计划
尽管在复现类Sora文生视频模型的工作方面取得了不错的进展,但作者团队也谦逊地指出,当前生成的视频在多个方面仍有待改进:包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,作者团队表示,他们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准,感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。
开源地址:https://github.com/hpcaitech/Open-Sora
参考文献:
[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md
[2] Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131(2022).
[3] https://openai.com/research/video-generation-models-as-world-simulators
到这里,我们也就讲完了《Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于的知识点!

- 上一篇
- 美团将建立算法公开机制,2025 年底前逐步取消骑手超时扣款

- 下一篇
- 笔记本电脑怎么重装系统Win10-重装笔记本系统的方法
-
- 科技周边 · 人工智能 | 4小时前 |
- Excel集成Python,AI预测分析轻松实现
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- Gemini效率提升与性能优化技巧
- 179浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 豆包AI写日志技巧全解析
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | 招投标
- 知识图谱助力招投标比对与溯源
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 豆包语音识别使用方法详解
- 277浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | 豆包AI
- 豆包AI如何高效处理多线程Python任务
- 470浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- Claude多语言翻译功能及体验分享
- 262浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 豆包AI生成测试用例的3种方法
- 351浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- DecipherItAI助手,多源研究分析利器
- 363浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 | 豆包AI 项目风险评估
- 豆包AI项目风险评估技巧解析
- 237浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- AIOverviews能总结网页内容吗?真实测试解析
- 229浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 华为引望新专利曝光:方向盘可折叠适配L3
- 194浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 139次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 161次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 153次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 138次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 160次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览