当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > MOVA模型开源，创智学院联合模思智能发布

MOVA模型开源，创智学院联合模思智能发布

2026-02-28 15:49:04 0浏览收藏

MOVA是什么

MOVA（MOSS Video and Audio）是由上海创智学院OpenMOSS团队携手模思智能（MOSI）共同研发的中国首个高性能开源音视频端到端生成模型。该模型打破传统视频“无声生成”的固有范式，创新采用异构双塔结构与双向桥接模块，原生支持视觉与听觉模态间的深度协同。模型参数量达320亿（基于MoE架构，推理时激活约180亿），可一次性生成最长8秒、分辨率达720p的同步音视频内容，在唇形-语音精准对齐、场景化环境音匹配等方面达到电影级水准。

MOVA— 创智学院联合模思智能开源的端到端音视频模型

MOVA的核心能力

一体化音视频合成：无需后期配音或音轨合成，直接输出声画同步的完整视听片段，终结“静音视频”时代。
多模态驱动方式：兼容图像+文本联合输入与纯文本指令两种模式，适配多样化创作需求。
高精度口型同步：针对中英文多角色对话场景，实现语音波形与面部微动的毫秒级匹配。
场景自适应音效生成：依据画面语义自动构建背景音乐、动作反馈声及空间环境音，增强沉浸感。
动态文字嵌入：支持在指定画面区域生成清晰、流畅、风格可控的运动文字内容。
高清长时序输出：稳定输出720p分辨率、最长8秒的高质量音视频序列。

MOVA的技术实现

异构双塔建模：分别部署14B参数的视频扩散主干与1.3B参数的音频扩散分支，借助双向桥接模块完成跨模态隐藏状态的细粒度交叉注意力融合，使视频生成过程实时感知音频节奏特征。
跨模态时间统一对齐：针对视频帧率（如24fps）与音频采样率（如44.1kHz）的巨大差异，引入Aligned ROPE机制，通过动态缩放映射将两类Token严格锚定至统一物理时间轴，从根源上规避音画错位。
阶梯式训练流程：采用三阶段渐进策略——首阶段以360p低清数据训练桥接模块快速建立音视频粗对齐能力；第二阶段提升稳定性与泛化性；最终在720p高清数据上进行细节优化与画质精修。
双通道CFG调控：为应对文本提示与模态间桥接信号两类控制源并存的特点，设计独立可调的双重分类器自由引导（CFG）权重，在通用生成中保障画面质量，在人物对话类任务中优先强化唇形一致性。