当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

来源:51CTO.COM 2023-11-27 14:00:00 0浏览 收藏

科技周边不知道大家是否熟悉?今天我将给大家介绍《结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!

扩散模型的引入推动了文本生成视频技术的发展,然而,这些方法往往计算成本高昂,且难以实现流畅的物体运动视频

为了应对这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和VIVO人工智能实验室的研究人员联合提出了一种名为GPT4Motion的新框架,该框架无需训练即可生成文本视频。GPT4Motion 结合了GPT等大型语言模型的规划能力、Blender软件提供的物理模拟能力以及扩散模型的文生成图能力,旨在大幅提升视频合成的质量

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频


  • 项目链接:https://gpt4motion.github.io/
  • 论文链接:https://arxiv.org/pdf/2311.12631.pdf
  • 代码链接:https://github.com/jiaxilv/GPT4Motion

GPT4Motion 使用 GPT-4 基于用户输入的文本 prompt 生成 Blender 脚本。它利用 Blender 的物理引擎来创建基本的场景组件,并将其封装为连续的跨帧运动。然后,将这些组件输入到扩散模型中,生成与文本 prompt 相匹配的视频

实验结果表明,GPT4Motion 能够高效地生成高质量的视频,同时保持了运动的一致性和实体的一致性。需要注意的是,GPT4Motion 使用了物理引擎,使得生成的视频更加真实。这为文本生成视频提供了新的视角

让我们先看看GPT4Motion的生成效果,例如输入文本提示:「一件白色T恤在微风中飘动」、「一件白色T恤在风中飘动」、「一件白色T恤在大风中飘动」。由于风的强度不同,GPT4Motion生成的视频中白色T恤的飘动幅度也不同:

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

在液体流动形态方面,GPT4Motion 生成的视频也能够很好地表现出来:

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

篮球从空中旋转着落下:

方法介绍

该研究的目标是根据使用者对一些基本物理运动场景的 prompt,生成一个符合物理特性的视频。物理特性通常与物体的材料有关。研究者的重点在于模拟日常生活中常见的三种物体材料:1)刚性物体,在受力时能保持形状不发生变化;2)布料,其特点是柔软且易飘动;3)液体,表现出连续和可变形的运动。

此外,研究人员还特别关注这些材料的几种典型运动模式,包括碰撞(物体之间的直接撞击)、风效应(气流引起的运动)和流动(连续且朝着一个方向移动)。模拟这些物理场景通常需要经典力学、流体力学和其他物理知识。目前专注于文本生成视频的扩散模型很难通过训练获取这些复杂的物理知识,因此无法制作出符合物理特性的视频

GPT4Motion的优势在于:确保生成的视频不仅与用户输入的提示一致,而且在物理上也是正确的。GPT-4的语义理解和代码生成能力可以将用户的提示转化为Blender的Python脚本,该脚本可以驱动Blender的内置物理引擎来模拟相应的物理场景。此外,该研究还使用了ControlNet,将Blender模拟的动态结果作为输入,指导扩散模型逐帧生成视频

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

利用 GPT-4 激活 Blender 进行模拟操作

研究者观察到,虽然 GPT-4 对 Blender 的 Python API 有一定的了解,但它根据用户 prompt 生成 Blender 的 Python 脚本的能力仍然有所欠缺。一方面,要求 GPT-4 直接在 Blender 中创建哪怕是一个简单的 3D 模型(如篮球)似乎都是一项艰巨的任务。另一方面,由于 Blender 的 Python API 资源较少且 API 版本更新较快,GPT-4 很容易误用某些功能或因版本差异而出错。为了解决这些问题,该研究提出了以下方案:

  1. 使用外部 3D 模型
  2. 封装 Blender 函数
  3. 将用户 prompt 转化为物理特性

图 3 显示了该研究为 GPT-4 设计的通用 prompt 模板。它包括封装的 Blender 函数、外部工具和用户指令。研究者在模板中定义了虚拟世界的尺寸标准,并提供了有关摄像机位置和视角的信息。这些信息有助于 GPT-4 更好地理解三维空间的布局。之后基于用户输入的 prompt 生成相应的指令,引导 GPT-4 生成相应的 Blender Python 脚本。最后,通过该脚本,Blender 渲染出物体的边缘和深度,并以图像序列的形式输出。

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

重写后的内容:制作遵循物理规律的视频

这项研究旨在根据用户提供的提示和Blender所提供的相应物理运动条件,生成与文字内容一致且视觉效果逼真的视频。为此,研究采用了扩散模型XL(SDXL)来完成生成任务,并对其进行了改进

  1. 物理运动约束
  2. 时间一致性约束

实验结果

控制物理特性

图4展示了GPT4Motion在三种提示下生成的篮球运动视频,涉及篮球的下落和碰撞。在图4的左侧,篮球在旋转时保持了高度逼真的纹理,并准确地复制了与地面碰撞后的弹跳行为。图4的中间显示,此方法可以精确控制篮球的数量,并有效地生成多个篮球落地时发生的碰撞和弹跳。令人惊喜的是,如图4右侧所示,当用户要求将篮球抛向摄像机时,GPT-4会根据生成脚本中篮球的下落时间计算出必要的初速度,从而实现逼真的视觉效果。这表明,GPT4Motion可以与GPT-4所掌握的物理知识相结合,从而控制生成的视频内容

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

在风中飘动的布料。图 5 和图 6 验证了 GPT4Motion 在生成在风力影响下运动的布匹的能力。利用现有的物理引擎进行模拟,GPT4Motion 可生成不同风力下布的波动和波浪。在图 5 展示了一面飘动旗帜的生成结果。在不同风力下,旗帜呈现出复杂的波纹和波浪图案。图 6 显示了不规则布料物体 —— T 恤,在不同风力下的运动情况。受织物弹性和重量等物理特性的影响,T 恤发生了抖动和扭曲,并出现了明显的褶皱变化。

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

图 7 展示了将不同粘度的水倒入马克杯的三段视频。当水的粘度较低时,流动的水与杯子中的水发生碰撞并融合,形成复杂的湍流现象。随着粘度的增加,水流变得缓慢,并且液体开始相互黏连在一起

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

与基线方法对比

在图1中,GPT4Motion与其他基线方法进行了直观对比。很明显,基线方法的结果与用户的提示不符。DirecT2V和Text2Video-Zero在纹理逼真度和动作一致性方面存在缺陷,而AnimateDiff和ModelScope虽然提高了视频的流畅度,但在纹理一致性和动作逼真度方面仍有提升空间。与这些方法相比,GPT4Motion可以在篮球下落和与地板碰撞后的弹跳过程中生成平滑的纹理变化,看起来更加逼真

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

如图 8(第一行)所示,AnimateDiff 和 Text2Video-Zero 生成的视频在旗帜上出现了伪影 / 扭曲,而 ModelScope 和 DirecT2V 则无法平滑地生成旗帜在风中飘动的渐变。但是,如图 5 中间所示,GPT4Motion 生成的视频可以显示出旗帜在重力和风力作用下皱纹和波纹的连续变化。

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

所有基线的结果都与用户提示不符,如图8中的第二行所示。尽管AnimateDiff和ModelScope的视频反映了水流的变化,但它们无法捕捉到水倒入杯子的物理效果。另一方面,由Text2VideoZero和DirecT2V生成的视频则创造了一个不断抖动的杯子。与此相比,如图7(左)所示,GPT4Motion生成的视频准确地描述了水流与马克杯碰撞时的激荡,效果更加逼真

有兴趣的读者可以阅读原始论文,以了解更多的研究内容

以上就是《结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频》的详细内容,更多关于模型,数据的资料请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
18个国家签署协议,呼吁企业加强AI安全性18个国家签署协议,呼吁企业加强AI安全性
上一篇
18个国家签署协议,呼吁企业加强AI安全性
斯坦福大学的最新研究或将实现利用思维控制AI机器人的目标
下一篇
斯坦福大学的最新研究或将实现利用思维控制AI机器人的目标
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    5次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    24次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    23次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    34次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    34次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码