当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 阿里通义开源万相模型，强大视频生成功能

阿里通义开源万相模型，强大视频生成功能

2025-05-17 13:09:26 0浏览收藏

万相首尾帧模型的主要功能

DiT架构：核心架构基于DiT（Diffusion in Time）架构，专门用于视频生成。基于Full Attention机制精确捕捉视频的长时程时空依赖关系，确保生成视频在时间和空间上的高度一致性。
视频压缩VAE模型：引入高效的视频压缩VAE（Variational Autoencoder）模型，显著降低运算成本，同时保持生成视频的高质量。使高清视频生成更加经济且高效，支持大规模的视频生成任务。
条件控制分支：用户提供的首帧和尾帧作为控制条件，通过额外的条件控制分支实现流畅且精准的首尾帧变换。首帧与尾帧与若干零填充的中间帧拼接，构成控制视频序列。序列进一步与噪声及掩码（mask）拼接，作为扩散变换模型（DiT）的输入。
交叉注意力机制：提取首帧和尾帧的CLIP语义特征，通过交叉注意力机制（Cross-Attention Mechanism）注入到DiT的生成过程中。画面稳定性控制确保生成视频在语义和视觉上与输入的首尾帧保持高度一致。
训练与推理：训练策略基于数据并行（DP）与完全分片数据并行（FSDP）相结合的分布式策略，支持720p、5秒视频切片训练。分三个阶段逐步提升模型性能：
- 第一阶段：混合训练，学习掩码机制。
- 第二阶段：专项训练，优化首尾帧生成能力。
- 第三阶段：高精度训练，提升细节复刻与动作流畅性。