当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样

加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样

来源：51CTO.COM 2023-04-18 09:06:08 0浏览收藏

论文细节

视觉特效和视频编辑在当代媒体领域无处不在。随着以视频为中心的平台的普及，对更直观、性能更强的视频编辑工具的需求也在增加。然而，由于视频数据的时间性，在这种格式下的编辑仍然是复杂和耗时的。最先进的机器学习模型在改善编辑过程方面显示出了巨大的前景，但很多方法不得不在时间一致性和空间细节之间取得平衡。

由于引入了在大规模数据集上训练的扩散模型，用于图像合成的生成方法最近在质量和受欢迎程度上经历了一个快速增长阶段。一些文本条件模型，如 DALL-E 2 和 Stable Diffusion，使新手只需输入一个文本 prompt 就能生成详细的图像。潜在扩散模型提供了有效的方法，通过在感知压缩的空间中进行合成来生成图像。

在本论文中，研究者提出了一个可控的结构和内容感知的视频扩散模型，该模型是在未加字幕的视频和配对的文本 - 图像数据的大规模数据集上训练的。研究者选择用单目深度估计来表征结构，用预训练的神经网络预测的嵌入来表征内容。

该方法在其生成过程中提供了几种强大的控制模式：首先，与图像合成模型类似，研究者训练模型使推断出的视频内容，如其外观或风格，与用户提供的图像或文本 prompt 相匹配（图 1）。其次，受扩散过程的启发，研究者对结构表征应用了一个信息掩蔽过程，以便能够选择模型对给定结构的支持程度。最后，研究者通过一个自定义的指导方法来调整推理过程，该方法受到无分类指导的启发，以实现对生成片段的时间一致性的控制。

总体来说，本研究的亮点如下：

通过在预训练图像模型中引入时间层，并在图像和视频上进行联合训练，将潜在扩散模型扩展到了视频生成领域；
提出了一个结构和内容感知的模型，在样本图像或文本的指导下修改视频。编辑工作完全是在推理时间内进行的，不需要额外对每个视频进行训练或预处理；
展示了对时间、内容和结构一致性的完全控制。该研究首次表明，对图像和视频数据的联合训练能够让推理时间控制时间的一致性。对于结构的一致性，在表征中不同的细节水平上进行训练，可以在推理过程中选择所需的设置；
在一项用户研究中，本文的方法比其他几种方法更受欢迎；
通过对一小部分图像进行微调，可以进一步定制训练过的模型，以生成更准确的特定主体的视频。

方法

就研究目的而言，从内容和结构的角度来考虑一个视频将是有帮助的。对于结构，此处指的是描述其几何和动态的特征，比如主体的形状和位置，以及它们的时间变化。对于内容，此处将其定义为描述视频的外观和语义的特征，比如物体的颜色和风格以及场景的照明。Gen-1 模型的目标是编辑视频的内容，同时保留其结构。

为了实现这一目标，研究者学习了视频 x 的生成模型 p (x|s, c)，其条件是结构表征（用 s 表示）和内容表征（用 c 表示）。他们从输入视频推断出形状表征 s，并根据描述编辑的文本 prompt c 对其进行修改。首先，描述了对生成模型的实现，作为一个条件潜在的视频扩散模型，然后，描述了对形状和内容表征的选择。最后，讨论了模型的优化过程。

模型结构如图 2 所示。

实验

为了评估该方法，研究者采用了 DAVIS 的视频和各种素材。为了自动创建编辑 prompt，研究者首先运行了一个字幕模型来获得原始视频内容的描述，然后使用 GPT-3 来生成编辑 prompt。

定性研究

如图 5 所示，结果证明，本文的方法在一些不同的输入上表现良好。

用户研究

研究者还使用 Amazon Mechanical Turk（AMT）对 35 个有代表性的视频编辑 prompt 的评估集进行了用户研究。对于每个样本，均要求 5 个注解者在基线方法和本文方法之间对比对视频编辑 prompt 的忠实度（「哪个视频更好地代表了所提供的编辑过的字幕？」），然后以随机顺序呈现，并使用多数票来决定最终结果。

结果如图 7 所示：

定量评估

图 6 展示了每个模型使用本文框架一致性和 prompt 一致性指标的结果。本文模型在这两方面的表现都倾向于超越基线模型（即，在图的右上角位置较高）。研究者还注意到，在基线模型中增加强度参数会有轻微的 tradeoff：更大的强度缩放意味着更高的 prompt 一致性，代价是更低的框架一致性。同时他们还观察到，增加结构缩放会导致更高的 prompt 一致性，因为内容变得不再由输入结构决定。

定制化

图 10 展示了一个具有不同数量的定制步骤和不同水平的结构依附性 ts 的例子。研究者观察到，定制化提高了对人物风格和外观的保真度，因此，尽管使用具有不同特征的人物的驱动视频，但结合较高的 ts 值，还是可以实现精确的动画效果。