当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

来源:机器之心 2024-01-12 21:17:38 0浏览 收藏

科技周边不知道大家是否熟悉?今天我将给大家介绍《「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!

扩散模型在图像生成方面取得了显著成功,但将其应用于视频超分辨率仍存在挑战。视频超分辨率要求输出保真度和时间一致性,而扩散模型的固有随机性使这变得复杂。因此,有效地将扩散模型应用于视频超分辨率仍是一个具有挑战性的任务。

来自南洋理工大学 S-Lab 的研究团队提出了一种名为Upscale-A-Video的文本指导潜在扩散框架,用于视频超分。该框架通过两个关键机制确保时间一致性。首先,在局部范围内,它将时间层集成到U-Net和VAE-Decoder中,以保持短序列的一致性。其次,在全局范围内,该框架引入了流指导循环潜在传播模块,无需训练即可在整个序列中传播和融合潜在,从而增强整体视频的稳定性。这种框架的提出为视频超分提供了一种新的解决方案,具有较好的时间一致性和整体稳定性。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

论文地址:https://arxiv.org/abs/2312.06640

通过扩散范式,Upscale-A-Video 获得了很大的灵活性。它允许使用文本 prompt 来指导纹理的创建,并且可以调节噪声水平,以在恢复和生成之间平衡保真度和质量。这一特性使得该技术在保持原始内容意义不变的同时,能够微调细节,从而实现更精确的结果。

实验结果表明,Upscale-A-Video在合成和现实世界基准上的表现超过了现有方法,呈现出令人印象深刻的视觉真实感和时间一致性。

我们先来看几个具体例子,例如,借助 Upscale-A-Video,「花果山名场面」有了高清画质版:

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

相比于 StableSR,Upscale-A-Video 让视频中的松鼠毛发纹理清晰可见:

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

方法简介

一些研究通过引入时间一致性策略来优化图像扩散模型以适应视频任务。这些策略包括以下两种方法:首先,通过时间层微调视频模型,如3D卷积和时间注意力,来提升视频处理性能。其次,使用零样本机制,例如跨帧注意力和流指导注意力,来在预训练模型中进行调整,以提高视频任务的表现。这些方法的引入使得图像扩散模型能够更好地处理视频任务,从而提升视频处理的效果。

尽管这些解决方案显著提高了视频稳定性,但仍然存在两个主要问题:

  • 当前在 U-Net 特征或潜在空间中运行的方法难以保持低级一致性,纹理闪烁等问题仍然存在。 

  • 现有的时间层和注意力机制只能对短的局部输入序列施加约束,限制了它们确保较长视频中全局时间一致性的能力。

为了解决这些问题,Upscale-A-Video 采用局部-全局策略来维持视频重建中的时间一致性,重点关注细粒度纹理和整体一致性。在局部视频剪辑上,该研究探索使用视频数据上的附加时间层来微调预训练图像 ×4 超分模型。

具体来说,在潜在扩散框架内,该研究首先使用集成的 3D 卷积和时间注意力层对 U-Net 进行微调,然后使用视频条件输入和 3D 卷积来调整 VAE 解码器。前者显著实现了局部序列的结构稳定性,后者进一步提高了低级一致性,减少了纹理闪烁。在全局范围内,该研究引入了一种新颖的、免训练的流指导循环潜在传播模块,在推理过程中双向进行逐帧传播和潜在融合,促进长视频的整体稳定性。

Upscale-A-Video 模型可以利用文本 prompt 作为可选条件来指导模型产生更真实、更高质量的细节,如图 1 所示。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

Upscale-A-Video 将视频划分为多个片段,并使用具有时间层的 U-Net 对其进行处理,以实现片段内的一致性。在用户指定的全局细化扩散期间,使用循环潜在传播模块来增强片段间的一致性。最后,经过微调的 VAE 解码器可减少闪烁伪影,实现低级一致性。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video
「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

实验结果

Upscale-A-Video 在现有基准上实现了SOTA性能,展现出卓越的视觉真实感和时间一致性。

定量评估。如表 1 所示,Upscale-A-Video在所有四个合成数据集中实现了最高的 PSNR,表明其具有出色的重建能力。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

定性评估。该研究分别在图 4 和图 5 中展示了合成和真实世界视频的视觉结果。Upscale-A-Video 在伪影去除和细节生成方面都显著优于现有的 CNN 和基于扩散的方法。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

今天关于《「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
win10彻底删除360教程win10彻底删除360教程
上一篇
win10彻底删除360教程
win10注册表没有msahci怎么解决
下一篇
win10注册表没有msahci怎么解决
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    19次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    35次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    35次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    43次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    44次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码