大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。
在实际生活中,视频编辑是一个非常重要的技能,而且应用范围更加广泛。以前,视频编辑通常局限于外观方面,例如风格转换或者替换视频中的物体,但是很少尝试改变视频中对象的动作。在现代,随着技术的发展,视频编辑变得更加创新和多样化。编辑者可以利用各种工具和软件来实现视频中对象动作的修改,从而为视频增添更多的趣味性和创意性。 通过使用专业的视频编辑软件,编辑者可以对视频中的对象动作进行调整和改变。这种技术不仅可以用于电影制作和广告制作中,还可以应用于社交媒体平台和个人创作中。通过改变对象的动作,编辑者可以创造出更加生动和有趣的视频内容,吸引观众的注意力,提升视频的质量和吸引力。 总的来
UniEdit 视频编辑结果(动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换)
本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit,不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景,更可以有效地编辑视频中对象的动作,例如将以上视频中浣熊弹吉他的动作变成「吃苹果」或是「招手」。
除了具有灵活的自然语言接口和统一的编辑框架之外,这一模型的另一个显著优点就是无需进行训练,这极大地提高了其部署的便捷性和用户的使用便利性。
- 论文标题:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
- 项目主页:https://jianhongbai.github.io/UniEdit
- 代码:https://github.com/JianhongBai/UniEdit
- 论文:https://arxiv.org/abs/2402.13185
1.UniEdit 在多种视频编辑场景中的表现
a) 对象动作编辑
编辑指令:一只正在趴着的柯基
b) 风格化
编辑指令:上海,码头,油画风格
c) 背景替换
编辑指令:钢铁侠在公园,冬季
d) 对象刚性编辑
编辑指令:一位男士穿着红色西装
e) 对象非刚性编辑
编辑指令:马里奥正在享用晚餐
可以观察到,UniEdit 在不同编辑场景中 1)保持了较好的时序一致性,2)较好的保留了原视频的结构及纹理细节,3)生成符合文本描述的编辑视频,展现出了强大的视频编辑能力。
2.UniEdit 独特之处与技术创新点
研究者表示,UniEdit 相较于其他视频编辑方法,其独特之处体现在:
- 多功能:支持视频「动作」编辑以及多种视频「外观」编辑场景。
- 无需训练:UniEdit 直接利用与训练的文本到视频生成模型,无需额外训练或微调。
- 灵活性:可兼容不同文本到视频生成模型,可以使用更加强大的视频生成模型提升 UniEdit 编辑质量。
UniEdit 技术上的核心创新点为:
- 研究者发现,视频生成模型的时间自注意层编码了视频的「帧间依赖性」。基于这个洞察,研究者引入了一个辅助的动作参考分支,用于生成文本引导的动作特征,然后通过时间自注意层(SA-T)将这些特征注入到主编辑路径中,从而实现将文本引导的动作注入到源视频中。
- 受到图像编辑技术的启发,研究者发现视频生成模型的空间自注意层(SA-S)编码了视频帧内空间依赖性。因此,研究者引入了一个辅助视频重建分支,并将从视频重建分支的空间自我注意层获得的特征注入到主编辑路径中,以保留源视频的非编辑内容。
- 为了在编辑外观时保持空间结构,研究者将主编辑路径中的空间注意力图替换为视频重建分支中的空间注意力图。
3.UniEdit 算法框架解读
方法概述。如上图所示,UniEdit 主编辑路径遵循反演 - 生成流程:使用 DDIM 反演后的潜变量作为初始噪声,然后以目标提示
为文本条件,使用预训练的 UNet 进行去噪处理。进行动作编辑时,为了实现源内容保留和动作控制,研究者提出加入一个辅助视频重建分支和一个辅助动作参考分支,以提供所需的源视频内容和动作特征,这些特征被注入到主编辑路径中,以实现内容保留和动作编辑。
对象动作编辑 — 内容保留。编辑任务的关键挑战之一是继承源视频中的原始内容(例如纹理和背景)。如图像编辑中所验证的,重建过程中去噪模型的注意力特征包含了源视频的内容信息。因此,UniEdit 将视频重建分支中的注意力特征注入到主编辑路径的空间自注意(SA-S)层中,以保留原视频内容。
在去噪步骤 t,主编辑路径中第个 SA-S 模块的注意力机制操作如下:
其中是主编辑路径中的特征,
是重建分支中对应 SA-S 层的值(value),
和
为超参数。通过替换空间自注意力层的 value 特征,主编辑路径合成的视频保留了源视频的未编辑特征(例如背景)。与之前的视频编辑工作使用的跨帧注意力机制不同,研究者采用逐帧替换的操作,以更好地处理包含大幅度动作的源视频。
对象动作编辑 — 动作注入。为了在不牺牲内容一致性的情况下获得所需的动作,研究者提出用参考动作指导主编辑路径。具体来说,在去噪过程中涉及一个辅助动作参考分支。与重建分支不同,动作参考分支以包含所需动作描述的目标提示为条件。为了将动作转移到主编辑路径,研究者的核心洞察是时间层模拟了合成视频剪辑的帧间依赖性(如下图所示)。受上述观察的启发,研究者设计了在主编辑路径的时间自注意层上注入注意力图:
其中和
指的是动作参考分支的查询(query)和键值(key),并在实践中将
和
设置为零。研究者观察到,时间注意力图的注入可以有效地帮助主编辑路径生成与目标提示一致的动作。为了更好地将动作与源视频中的内容融合,研究者还在早期去噪步骤中对主编辑路径和动作参考分支实施空间结构控制。
外观编辑 — 空间结构控制。总的来说,外观编辑和动作编辑之间有两个主要区别。首先,外观编辑不需要改变视频的帧间关系。因此,研究者从动作编辑流程中移除了动作参考分支和相应的动作注入机制。其次,外观编辑的主要挑战是保持源视频的结构一致性。为了解决这个问题,研究者在主编辑路径和重建分支之间引入了空间结构控制。
先前的视频外观编辑方法主要利用辅助网络(例如 ControlNet)实现空间结构控制。当辅助控制模型失败时,可能会导致在保持原始视频结构方面的性能下降。作为替代,研究者建议从重建分支中提取源视频的空间结构信息。直观地说,空间自注意层中的注意力图编码了合成视频的结构,如下图所示。因此,研究者用重建分支中的查询和键替换主编辑路径中 SA-S 模块的查询和键:
其中和
指重建分支的查询和键,
和
用于控制编辑的程度。值得一提的是,空间结构控制的效果与内容保留机制不同。以风格化为例,上式中的结构控制机制只确保了每帧空间构图的一致性,同时使模型能够基于文本提示生成所需的纹理和风格。另一方面,内容呈现技术继承了源视频的纹理和风格。因此,研究者使用结构控制而不是内容保留来进行外观编辑。
允许图像输入。为了使 UniEdit 更加灵活,研究者进一步提出一种方法,允许将图像作为输入并合成高质量的视频。与图像动画技术不同,UniEdit 允许用户用文本提示指导动画过程。
具体来说,研究者提出首先通过以下方式实现文本到图像(I2V)的生成:1)通过模拟相机运动转换输入图像,形成伪视频片段;或者 2)利用现有的图像动画方法(例如SVD、AnimateDiff)合成一个具有随机动作的视频(这可能与文本提示不一致)。然后,研究者使用以上介绍的 UniEdit 算法对原始视频进行文本引导编辑,以获得最终输出视频。
3.UniEdit 实验结果
UniEdit 不局限于特定的视频扩散模型。研究者将 UniEdit 建立在视频生成模型 LaVie 之上,以验证所提出方法的有效性。对于每个输入视频,研究者遵循 LaVie 的预处理步骤将分辨率调整为 320×512。然后,将预处理后的视频输入 UniEdit 进行视频编辑。每个视频在 NVIDIA A100 GPU 上编辑仅需 1-2 分钟。
基线方法。为了评估 UniEdit 的性能,研究者将 UniEdit 的编辑结果与最先进的动作和外观编辑方法进行比较。对于动作编辑,由于缺乏开源的无需训练的方法,研究者将最先进的非刚性图像编辑技术 MasaCtrl 适配到 T2V 模型,以及 one-shot 视频编辑方法 Tune-A-Video (TAV) 作为强基线。对于外观编辑,研究者使用最新的性能强大的方法,包括 FateZero、TokenFlow 和 Rerender-A-Video (Rerender) 作为基线。结果如下图所示:
定性结果。研究者在图中给出了 UniEdit 的编辑示例(更多示例见项目主页及论文原文)。观察到 UniEdit 可以:1)在不同场景中编辑,包括动作变化、物体替换、风格转换、背景修改等;2)与目标提示一致;3)展示出极佳的时序一致性。
此外,研究者在图 5 中与最先进的方法进行了比较。对于外观编辑,即将源视频转换为油画风格,UniEdit 在内容保留方面优于基线。例如草原仍保持其原始外观,没有任何额外的石头或小路。对于动作编辑,大多数基线方法未能输出与目标提示对齐的视频,或者未能保留源内容。
定量结果。研究者从两个方面定量验证了 UniEdit 的有效性:时间一致性和与目标提示的一致性。遵循之前的工作,研究者使用 CLIP 模型计算帧间一致性和文本对齐的分数。研究者还通过邀请 10 位参与者对 UniEdit 和基线方法编辑的视频进行五级评分(1-5)进行了用户研究。如下表所示,UniEdit 的表现大幅超过基线方法。
更多细节内容请参阅原论文。
以上就是《大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景》的详细内容,更多关于训练,视频的资料请关注golang学习网公众号!

- 上一篇
- 掌握PHP多维数组排序:解锁高级排序功能

- 下一篇
- 法拉第未来宣布:FF 91美国市场车辆已OTA召回,用户可安心驾驶
-
- 科技周边 · 人工智能 | 5小时前 |
- 小米SU7订单18万未交付,月产能暴增6倍
- 361浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 | iPhone17Pro 天蓝色 M4MacBookAir
- iPhone17Pro/ProMax弃钛金属,拥抱天蓝色
- 272浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 问界M8快报:MAX+版最火,BAL车主热捧
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 港大与Adobe联手推出PixelFlow图像生成模型
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 | 摩尔线程 招聘诈骗 @mthreads.com 官方客服 法律责任
- 摩尔线程重磅声明发布
- 406浏览 收藏
-
- 科技周边 · 人工智能 | 15小时前 |
- 玛莎拉蒂GT2Stradale国内首秀售414.5万
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 |
- 美股反弹艰难,三大指数涨跌不一,英伟达跌3%
- 301浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 30次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 44次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 40次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 53次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 43次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览