当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 阶跃星辰发布开源图生视频模型Step-Video-TI2V

阶跃星辰发布开源图生视频模型Step-Video-TI2V

2025-04-18 10:09:50 0浏览收藏

Step-Video-TI2V是什么

Step-Video-TI2V 是阶跃星辰（StepFun）推出的开源图生视频（Image-to-Video）生成模型，拥有 300 亿参数，能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器（Video-VAE），实现了 16×16 的空间压缩和 8× 的时间压缩，显著提高了训练和推理效率。用户可以通过设置运动分数（motion score）来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。

Step-Video-TI2V的主要功能

图生视频生成：用户可以提供一张图片和相关的文本描述，模型会根据这些输入生成一段连贯的视频。
高质量视频输出：支持生成最多 102 帧、5 秒、540P 分辨率的视频，能满足多种创作需求。
动态性调节：用户可以通过设置运动分数（motion score）来控制视频的动态性。例如，运动分数为 2 时，视频更稳定但动态性较差；运动分数为 10 或 20 时，视频的动态性更强。
平衡动态与稳定：通过运动分数的调节，用户可以在动态效果和稳定性之间找到最佳平衡。
镜头运动控制：支持多种运镜方式，包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
电影级运镜效果：能生成类似电影级别的复杂运镜效果，满足专业创作需求。
动漫效果优化：在动漫风格视频生成方面表现出色，能生成具有虚化背景、动态动作等特效的视频。适合用于动画创作、短视频制作等应用场景。
灵活的视频尺寸：支持多种尺寸的视频生成，包括横屏、竖屏和方屏，用户可以根据不同的创作需求和平台特性选择合适的视频尺寸。
多语言支持：配备双语文本编码器，支持中英文提示输入，方便不同语言背景的用户使用。
特效生成能力：初步具备特效生成能力，未来将通过技术优化进一步提升特效生成效果。

Step-Video-TI2V的技术原理

深度压缩的变分自编码器（Video-VAE）：Step-Video-TI2V 使用了深度压缩的变分自编码器（Video-VAE），实现了 16×16 的空间压缩和 8× 的时间压缩。显著降低了视频生成任务的计算复杂度，同时保持了优异的视频重建质量。Video-VAE 采用了双路径架构，能有效分离高低频信息，进一步优化视频生成的效果。
基于扩散的 Transformer（DiT）架构：模型基于扩散的 Transformer（DiT）架构，包含 3D 全注意力机制。通过 Flow Matching 训练方法，将输入噪声逐步去噪为潜在帧，将文本嵌入和时间步作为条件因子。这种架构在生成具有强烈运动动态和高美学质量的视频方面表现出色。
双语文本编码器：Step-Video-TI2V 配备了双语文本编码器，能处理中英文提示。使模型可以直接理解中文或英文输入，生成与文本描述相符的视频。
直接偏好优化（DPO）：为了进一步提升生成视频的质量，Step-Video-TI2V 引入了视频直接偏好优化（Video-DPO）方法。DPO 通过人类偏好数据对模型进行微调，减少伪影并增强视觉效果，使生成的视频更加平滑和真实。
级联训练策略：模型采用了级联训练流程，包括文本到图像（T2I）预训练、文本到视频/图像（T2VI）预训练、文本到视频（T2V）微调和直接偏好优化（DPO）训练。加速了模型的收敛，充分利用了不同质量的视频数据。
系统优化：Step-Video-TI2V 在系统层面进行了优化，包括张量并行、序列并行和 Zero1 优化，实现高效的分布式训练。引入了高性能通信框架 StepRPC 和双层监控系统 StepTelemetry，优化数据传输效率和识别性能瓶颈。