当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > MultiTalk上线！音频驱动打造最强多人对话视频工具

MultiTalk上线！音频驱动打造最强多人对话视频工具

2025-06-23 16:45:06 0浏览收藏

MultiTalk简介

MultiTalk是由中山大学深圳校区、美团与香港科技大学联合开发的一种创新性音频驱动多人对话视频生成框架。该框架能够通过多声道音频输入、参考图像以及文本提示，生成具有人物互动且口型与音频同步的高质量视频。为了解决多声道音频与人物绑定的技术难题，框架引入了Label Rotary Position Embedding (L-RoPE)方法，并采用部分参数训练和多任务训练策略，在保留基础模型指令跟随能力的同时实现了高效的视频生成。MultiTalk在多个数据集上表现优异，展示了其在卡通视频、歌唱视频及指令响应视频等多样化场景的应用潜力。

MultiTalk的核心功能

基于音频的多人对话视频生成：根据多声道音频输入、参考图像和文本提示，自动生成包含多人互动且口型与音频精准匹配的视频。
解决音频与角色绑定问题：采用Label Rotary Position Embedding (L-RoPE)技术，确保每个声道的音频信息正确对应到相应的说话人，避免音频误配现象。
强大的指令执行能力：通过部分参数训练和多任务学习策略，保持基础模型对文本指令的理解与执行能力，从而按照用户需求生成符合要求的视频内容。

MultiTalk的技术实现

音频驱动的视频生成架构：MultiTalk以Diffusion-in-Transformer (DiT)为基础构建视频扩散模型，结合3D变分自编码器（VAE）对视频进行时空维度压缩，从而高效生成视频内容。模型通过扩散过程的逆运算逐步从噪声中重建出视频帧，3D VAE用于视频的编码与解码，将视频帧压缩至低维空间以便于处理。
音频特征提取与融合：为了实现音频与视频内容的有效融合，MultiTalk引入了音频交叉注意力机制。系统利用Wav2Vec提取音频特征，并对其进行时间维度上的压缩以匹配视频帧率。在每个DiT模块中添加音频交叉注意力层，使视频生成过程能够依据音频特征动态调整输出画面。
标签旋转位置嵌入（L-RoPE）：为实现音频与人物的精准绑定，系统为每位角色和背景分配不同的标签范围，并基于旋转位置嵌入技术将标签信息融入音频与视频特征中。
智能人物定位机制：为了动态追踪视频中各角色的位置变化，系统采用自适应人物定位方法。通过参考图像和生成视频中的自注意力图，模型可自动识别每位角色的具体位置，从而实现更精确的音频绑定。
阶段性训练策略：第一阶段专注于单人动画的生成，第二阶段则扩展至多人互动场景。训练过程中仅更新音频交叉注意力层和音频适配器的参数，其余网络参数保持冻结状态，以维持基础模型的指令执行能力。
多任务联合训练：系统同时支持音频+图像到视频（AI2V）任务和图像到视频（I2V）任务，使用不同数据集进行联合训练，从而提升模型整体性能。