当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Next-FrameDiffusion：北大微软联合推出自回归视频模型

Next-FrameDiffusion：北大微软联合推出自回归视频模型

2025-07-11 17:09:44 0浏览收藏

北京大学与微软研究院联合推出创新自回归视频生成模型——Next-Frame Diffusion（NFD）。该模型巧妙融合了扩散模型的高质量生成能力与自回归模型在因果性和可控性上的优势，通过块因果注意力机制和扩散变换器实现高效的逐帧生成，保证视频连贯性的同时，更能达到超过30FPS的实时生成速度。NFD还引入一致性蒸馏和推测性采样等先进技术，显著提升生成效率。该模型尤其擅长大规模动作驱动的视频生成，在游戏开发、VR/AR、影视广告制作等领域拥有广阔的应用前景。项目主页及论文链接已开放，欢迎探索NFD的强大功能与技术细节。

Next-Frame Diffusion（NFD）是由北京大学与微软研究院共同研发的自回归视频生成模型，它融合了扩散模型在生成质量上的优势以及自回归模型在因果性和可控性方面的特点。该模型通过块因果注意力机制（Block-wise Causal Attention）和扩散变换器（Diffusion Transformer）实现高效的逐帧生成，在保证视频连贯性的同时，能够达到超过30FPS的实时生成速度。此外，模型还引入了一致性蒸馏（Consistency Distillation）和推测性采样（Speculative Sampling）等技术手段，进一步提升了生成效率，并在大规模动作驱动的视频生成任务中展现出优于现有方法的表现。

Next-Frame Diffusion的核心功能

实时视频生成：可在高性能GPU上实现实时生成超过30FPS的视频内容，适用于需要快速响应的交互式场景，如游戏、虚拟现实及实时视频编辑。
高保真度生成：在连续空间中生成高质量视频，相比传统自回归模型更能保留细节与纹理信息。
动作驱动生成：根据用户的实时操作指令生成对应的视频内容，具备高度灵活性和可控性，适合多种交互应用。
长序列视频生成：支持任意长度视频的生成，适用于故事叙述或模拟环境等需长期连贯性的场景。

Next-Frame Diffusion的技术机制

块因果注意力机制（Block-wise Causal Attention）：这是模型的核心结构，结合了帧内双向注意力与帧间因果依赖。在每一帧内部进行双向自注意力计算以捕捉空间信息，而在帧之间则保持因果关系，即当前帧仅依赖于之前的帧，从而确保时间上的连贯性。
扩散模型与扩散变换器（Diffusion Transformer）：基于扩散模型原理，通过逐步去噪生成视频帧。扩散变换器作为关键组件，利用Transformer架构处理视频中的时空相关性。
一致性蒸馏（Consistency Distillation）：为提升采样效率，将图像领域的一致性模型sCM（Simplified Consistency Model）拓展至视频生成领域，显著加快生成速度同时维持高质量输出。
推测性采样（Speculative Sampling）：利用相邻帧之间的动作输入一致性，提前预测未来若干帧内容。若后续动作发生变化，则丢弃推测结果并从最近有效帧重新生成，大幅缩短推理时间。
动作条件输入（Action Conditioning）：模型通过接收动作信号（如用户操作指令或其他控制信息）来引导视频生成的内容和方向。