当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > LONGLIVE：英伟达交互视频框架发布

LONGLIVE：英伟达交互视频框架发布

2025-10-09 23:33:37 0浏览收藏

LONGLIVE是什么

LONGLIVE 是由英伟达（NVIDIA）等顶级研究机构联合推出的实时交互式长视频生成框架。该框架采用帧级自回归（AR）模型，融合 KV-recache 机制、流式长视频微调策略以及短窗口注意力与帧汇入技术，有效突破了长视频生成中效率与质量难以兼顾的技术瓶颈。LONGLIVE 能在单张 H100 GPU 上以高达 20.7 FPS 的速度生成持续 240 秒的高质量视频，支持运行时提示词切换和动态内容调控，为创意设计、教育展示及影视制作等领域带来全新的创作方式，标志着 AI 视频生成正从“实验性工具”迈向“实用化生产力”的关键转折。

LONGLIVE的主要功能

实时交互能力：允许用户在视频生成过程中持续输入或修改提示词（prompt），实现对叙事方向、视觉风格的即时干预与调整。
超长视频生成：可稳定输出数分钟级别的连贯高清视频，适用于需要复杂情节演进或多场景转换的内容创作。
高效推理性能：仅需一块 NVIDIA H100 GPU 即可实现 20.7 FPS 的实时生成速率，支持最长 240 秒视频的流畅生产，同时维持出色的时间一致性和画面保真度。
高画质输出：借助创新架构设计，确保视频在视觉上高度连贯、语义清晰，在频繁更改指令时仍能实现自然过渡。
低资源部署：支持 INT8 量化推理，显著减小模型体积和计算开销，便于边缘设备或低成本环境部署，且几乎不影响生成效果。

LONGLIVE的技术原理

KV-recache 机制：当提示词发生变更时，系统通过重新计算键值（KV）缓存来“重置”模型状态，清除前序指令的干扰信息，同时保留关键的视觉与运动线索，保证画面平滑衔接并准确响应新指令。该机制被集成至训练流程中，使模型具备学习如何在指令切换后实现无缝过渡的能力。
流式长视频微调（Streaming Long Tuning）：针对自回归模型在长时间生成中出现的质量退化问题，提出一种模拟真实推理过程的“滚动扩展”训练方式，降低训练与推理之间的差异。结合局部监督与梯度分离技术，避免长序列反向传播引发的内存溢出（OOM），保障教师模型的有效指导。
短窗口注意力 + 帧汇入（Frame Sink）：采用受限的局部注意力窗口，大幅减少计算量和显存占用；同时引入帧汇入机制，通过保留初始帧中的关键块作为全局锚点，恢复长期依赖关系，在保持高效性的同时增强时间一致性。