当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > StableAvatar：复旦音频驱动视频模型发布

StableAvatar：复旦音频驱动视频模型发布

2025-10-13 17:18:35 0浏览收藏

StableAvatar是什么

StableAvatar 是由复旦大学与微软亚洲研究院等机构联合推出的一款先进的音频驱动虚拟形象生成模型。该模型基于端到端的视频扩散变换器架构，融合了时间步感知音频适配器、音频原生引导机制以及动态加权滑动窗口策略，能够生成无限时长且高质量的虚拟人物视频。相比现有方法，StableAvatar 在身份一致性、口型同步和画面流畅性方面表现优异，显著提升了生成结果的自然度与连贯性，适用于数字人、虚拟现实等多种应用场景。

StableAvatar的主要功能

高质量长视频生成：可生成超过3分钟的高清虚拟形象视频，保持角色外观稳定、语音同步精准。
无需额外后处理：直接输出完整视频，无需借助换脸工具或面部增强模型进行后期修复。
多类型形象支持：支持全半身像、多人互动场景及卡通风格角色的动画生成，广泛应用于虚拟助手、数字人、AR/VR等领域。

StableAvatar的技术原理

时间步感知音频适配器：通过引入时间步信息调制机制和交叉注意力结构，实现音频特征与潜在空间表示的深度融合，降低扩散过程中潜在分布的误差累积，提升模型对音画协同关系的建模能力。
音频原生引导机制：摒弃传统的分类自由引导（CFG）方式，利用扩散模型在去噪过程中自身生成的联合音频-潜在预测作为动态引导信号，直接调控采样路径，增强表情变化与语音内容的匹配度。
动态加权滑动窗口策略：采用对数插值方式对滑动窗口内的潜在特征进行加权融合，有效缓解长序列生成中的帧间跳跃问题，确保视频过渡平滑自然。