当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > OmniWeaving开源框架发布详解

OmniWeaving开源框架发布详解

2026-05-02 09:01:06 0浏览 收藏
OmniWeaving是由腾讯混元联合浙江大学、南洋理工大学于2026年开源的革命性统一视频生成框架,它彻底打破传统视频AI模型任务割裂、输入僵化的局限,首次实现文本、1-4张图像、视频片段的交错式自由组合与精准时序绑定,并依托MLLM“思考模式”化身智能导演——主动推断模糊意图、规划镜头语言与叙事逻辑,而非被动执行指令;其三组件架构(MLLM语义理解+MMDiT生成+VAE编码)配合DeepStacking深度语义注入,在IntelligentVBench基准上刷新开源模型SOTA,支持文生视频、图生视频、首尾帧插值、多图组合、视频编辑及图文视频联合编辑六大能力,硬件虽需多卡GPU,但完全开源的代码、权重与训练流程,正为开发者与创作者提供迄今最强大、最灵活、最接近商业级效果的开源视频生成新范式。

OmniWeaving是什么

OmniWeaving是浙江大学联合腾讯混元、南洋理工大学推出的统一视频生成框架。框架突破传统开源模型单一任务限制,实现多模态自由组合与推理增强生成,能将交错图文视频时序绑定生成连贯内容,像”智能导演”主动推断复杂意图。框架通过MLLM语义理解、MMDiT生成和VAE编码三组件架构,配套推出IntelligentVBench评估基准,在开源统一模型中达到SoTA性能,为缩小开源与商业视频生成鸿沟提供强有力开源参考。

OmniWeaving— 腾讯混元联合浙大等开源的视频生成框架

OmniWeaving的主要功能

  • 统一多模态生成:在一个框架内无缝整合文本、多图像和视频输入,支持交错式自由组合,实现多样化视频生成任务,告别传统单一任务模型的碎片化限制。
  • 时序绑定生成:将不同模态的内容进行时序对齐和绑定,生成跨模态连贯的动态视频。
  • 推理增强创作:通过 MLLM 的”思考模式”主动推断复杂、模糊的用户意图,像经验丰富的导演般自主规划镜头语言和叙事逻辑,从被动渲染升级为主动创作。
  • 高级语义理解:用多模态大语言模型将自由形式输入映射到高级语义空间,结合扩散 Transformer 生成精细视频内容。
  • 端到端视频生成:从概念理解到视频输出的一体化流程,支持角色一致性维护、风格迁移等复杂创作需求,在 IntelligentVBench 基准测试中达到开源模型 SoTA 水平。

如何使用OmniWeaving

  • 环境准备:从 GitHub 克隆 OmniWeaving 仓库后,安装项目依赖 requirements.txt 并根据需要选择安装 Flash Attention 或 SageAttention 加速库以优化推理性能。
  • 模型下载:从 HuggingFace 平台下载腾讯混元发布的 HY-OmniWeaving 模型权重文件到本地指定目录。
  • 文生视频:运行生成脚本并指定任务类型为 t2v,输入文本描述、设置画面比例和输出路径,可选添加思考模式让模型先推理意图再生成视频。
  • 图生视频:用 i2v 任务类型,提供首帧图片路径和动作描述文本,模型将根据静态图像和提示词生成连续动态视频。
  • 首尾帧插值:选择 interpolation 任务,传入起始帧和结束帧两张图片以及过渡描述,模型自动生成填补中间过程的连贯视频。
  • 多图组合生成:通过 reference2v 任务上传一至四张参考图片(如人物、道具、背景),配合文本提示实现多元素自由组合的视频创作。
  • 视频编辑:用 editing 任务上传源视频并输入编辑指令(如风格转换或物体替换),模型基于文本指引对视频内容进行智能修改。
  • 图文视频联合编辑:采用 tiv2v 任务同时输入源视频和参考图片,实现将参考图中的视觉元素融合到视频动态场景中的高级编辑。

OmniWeaving的项目地址

  • 项目官网:http://omniweaving.github.io/
  • GitHub仓库:http://github.com/Tencent-Hunyuan/OmniWeaving
  • HuggingFace模型库:http://huggingface.co/tencent/HY-OmniWeaving
  • arXiv技术论文:http://arxiv.org/pdf/2603.24458

OmniWeaving的关键信息和使用要求

  • 项目定位:腾讯混元联合浙江大学、南洋理工大学于 2026 年 4 月 3 日开源的统一视频生成框架。
  • 核心技术
    • MLLM+MMDiT+VAE 架构:多模态大语言模型解析交错图文视频输入,扩散 Transformer 生成视频,变分自编码器压缩视觉信号
    • 自由形式组合:支持文本、多图像(1-4 张)、视频输入的时序绑定与灵活组合
    • 推理增强生成:激活 MLLM “思考模式”,主动推断复杂用户意图,生成语义精准的视频内容
  • 使用要求
    • 硬件:多 GPU 环境(官方示例使用 8 卡),支持显存优化选项(Flash Attention/SageAttention)。
    • 软件:Python 环境,基于 PyTorch,需安装 HunyuanVideo-1.5 依赖。

OmniWeaving的核心优势

  • 统一全能:OmniWeaving 通过单一框架整合文生视频、图生视频、多图组合、视频编辑等六大类任务,替代传统需要多个专用模型的碎片化方案,实现全流程统一生成。
  • 自由组合:突破传统模型固定输入格式的限制,支持 1-4 张图像、视频片段与文本的交错式多模态输入,能进行时序绑定理解元素间的时空关系,实现复杂场景的真正融合生成而非简单拼接。
  • 推理增强:激活 MLLM 思考模式后,模型从被动执行指令的”渲染器”升级为主动推断用户意图的”智能导演”,能自动补全镜头语言和叙事逻辑,显著降低复杂创意描述的提示词工程门槛。
  • 深度语义注入:采用 DeepStacking 机制提取 MLLM 多层隐藏状态的多粒度语义特征,直接注入生成网络底层,实现像素级细节控制与高层语义对齐的双重保障,解决多主体生成中的细节丢失问题。

OmniWeaving的同类竞品对比

对比维度 OmniWeaving Seedance-2.0 CogVideoX
所属机构 腾讯混元 × 浙江大学 × 南洋理工大学 字节跳动 智谱AI (Zhipu AI)
开源状态 ✅ 完全开源(代码+权重+训练数据构建流程) ❌ 闭源商业产品 ✅ 开源(权重+推理代码)
任务统一性 单一框架支持 6 大任务(T2V/I2V/插值/编辑/多图组合/TIV2V) 全能统一模型,覆盖生成与编辑全流程 主要支持 T2V/I2V/Video Editing,需切换不同版本或配置
多模态输入 支持 1-4 张图像+视频片段+文本的交错式自由组合,进行时序绑定理解 支持多模态输入,具体组合形式未公开披露 主要支持固定格式的单图+文本或纯文本输入,多图组合能力有限
推理增强 ✅ 独有 Thinking Mode,MLLM 先主动推理用户意图再生成视频 具备一定意图理解能力,但具体机制未公开 ❌ 被动执行指令,无显式推理增强模块
生成质量 开源统一模型 SoTA,逼近商业系统水平 当前商业模型第一梯队,物理一致性和画质更优 开源社区主流水平,生态成熟但极致画质略逊于最新商业模型
生态集成 刚开源,生态建设中,依赖 HunyuanVideo 基础设施 闭源 API 服务,生态依赖官方平台 ComfyUI/WebUI 插件完善,社区 LoRA 资源丰富,集成门槛低

OmniWeaving的应用场景

  • 影视广告创意生产:通过文本直接生成概念预演视频验证分镜,或将角色、场景、道具参考图自由组合生成完整广告片。
  • 电商产品动态展示:上传产品白底图与场景参考图自动生成产品使用场景视频,结合用户照片与商品视频生成个性化虚拟试穿效果。
  • 社交媒体内容创作:将静态照片转化为带自然表情动作的动态视频让老照片”活”起来,基于首尾帧插值快速生成循环动画或趣味表情包。
  • 游戏动画资产制作:上传角色设计图与动作描述直接生成角色动画片段加速过场动画制作,提供关键帧让 AI 自动补全中间动画用于场景切换。

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

Win11定位程序输入点错误解决方法Win11定位程序输入点错误解决方法
上一篇
Win11定位程序输入点错误解决方法
百度云盘SVIP年卡购买方法
下一篇
百度云盘SVIP年卡购买方法
查看更多
最新文章
资料下载
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    4441次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    4797次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    4677次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    6462次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    5048次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码