当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

来源:机器之心 2024-08-07 17:57:36 0浏览 收藏

一分耕耘,一分收获!既然打开了这篇文章《智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!

智谱AI把自研打造的大模型给开源了。


国内视频生成领域越来越卷了。刚刚,智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

  • 代码仓库:https://github.com/THUDM/CogVideo
  • 模型下载:https://huggingface.co/THUDM/CogVideoX-2b
  • 技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日,智谱 AI 正式发布视频生成产品「清影」,得到大家广泛好评。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。

官宣即日起,清影上线清言 App,所有用户都可以全方位体验。想要尝试的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。

「清影」的出现被誉为是国内首个人人可用的 Sora。发布 6 天,「清影」生成视频数就突破百万量级。

  • PC 端访问链接:https://chatglm.cn/
  • 移动端访问链接:https://chatglm.cn/download?fr=web_home

为何智谱 AI 开源模型如此爆火?要知道虽然现在视频生成技术正逐步走向成熟,然而,仍未有一个开源的视频生成模型,能够满足商业级应用的要求。大家熟悉的 Sora、Gen-3 等都是闭源的。CogVideoX 的开源就好比 OpenAI 将 Sora 背后的模型开源,对广大研究者而言,意义重大。
 
CogVideoX 开源模型包含多个不同尺寸大小的模型,目前智谱 AI 开源 CogVideoX-2B,它在 FP-16 精度下的推理仅需 18GB 显存,微调则只需要 40GB 显存,这意味着单张 4090 显卡即可进行推理,而单张 A6000 显卡即可完成微调。
 
CogVideoX-2B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720*480。智谱 AI 为视频质量的提升预留了广阔的空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。
 
性能更强参数量更大的模型正在路上,敬请关注与期待。

模型

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

VAE

视频数据因包含空间和时间信息,其数据量和计算负担远超图像数据。为应对此挑战,智谱提出了基于 3D 变分自编码器(3D VAE)的视频压缩方法。3D VAE 通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性,减少了通信开销。智谱采用上下文并行技术以适应大规模视频处理。

实验中,智谱 AI 发现大分辨率编码易于泛化,而增加帧数则挑战较大。因此,智谱分两阶段训练模型:首先在较低帧率和小批量上训练,然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。
 
专家 Transformer

智谱 AI 使用 VAE 的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入 z_vision。同时,智谱 AI 使用 T5,将文本输入编码为文本嵌入 z_text,然后将 z_text 和 z_vision 沿序列维度拼接。拼接后的嵌入被送入专家 Transformer 块堆栈中处理。最后,反向拼接嵌入来恢复原始潜在空间形状,并使用 VAE 进行解码以重建视频。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Data

视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。智谱 AI 开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过 video-llama 训练的过滤器,智谱 AI 标注并筛选了 20,000 个视频数据点。同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。
 
视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短,无法全面描述视频内容。智谱 AI 提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过 Panda70M 模型生成简短字幕,使用 CogView3 模型生成密集图像字幕,然后使用 GPT-4 模型总结生成最终的短视频。智谱 AI 还微调了一个基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

性能

为了评估文本到视频生成的质量,智谱 AI 使用了 VBench 中的多个指标,如人类动作、场景、动态程度等。智谱 AI 还使用了两个额外的视频评估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,这些工具专注于视频的动态特性。如下表所示。
智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调
智谱 AI 已经验证了 scaling law 在视频生成方面的有效性,未来会在不断 scale up 数据规模和模型规模的同时,探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

最后,我们看看「清影」的效果。

提示语:「一艘精致的木制玩具船,桅杆和船帆雕刻精美,平稳地滑过一块模仿海浪的蓝色毛绒地毯。船体漆成浓郁的棕色,有小窗户。地毯柔软而有质感,提供了完美的背景,类似于广阔的海洋。船周围还有各种玩具和儿童用品,暗示着一个好玩的环境。这个场景捕捉到了童年的纯真和想象力,玩具船的旅程象征着在异想天开的室内环境中无尽的冒险。」智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调提示语:「镜头跟随一辆装着黑色车顶行李架的白色老式 SUV,它在陡峭的山坡上沿着松树环绕的土路加速行驶,轮胎扬起尘土,阳光照射在沿着土路飞驰的 SUV 身上,为场景投下温暖的光芒。土路缓缓弯曲向远方延伸,看不到其他汽车或车辆。道路两旁的树木都是红杉,点缀着一片片绿植。从后面看,汽车轻松地顺着弯道行驶,让人觉得它正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉,头顶是湛蓝的天空,上面飘着薄薄的云彩。」 智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调提示语:「一片白雪皑皑的森林景观,一条土路穿过其中。道路两旁是被白雪覆盖的树木,地面也被白雪覆盖。阳光灿烂,营造出明亮而宁静的氛围。道路上空无一人,视频中看不到任何人或动物。视频的风格是自然风景拍摄,重点是白雪皑皑的森林之美和道路的宁静。」 智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调提示语:「鸡肉和青椒烤肉串在烧烤架上烧烤的特写。浅焦和淡烟。色彩鲜艳」 智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

今天关于《智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于产业,智谱 AI的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
科大讯飞发布智能办公本Air 2,打造更懂你的办公AI助手科大讯飞发布智能办公本Air 2,打造更懂你的办公AI助手
上一篇
科大讯飞发布智能办公本Air 2,打造更懂你的办公AI助手
远非传闻的51%,特斯拉车主回归燃油车的比例实际不足13%
下一篇
远非传闻的51%,特斯拉车主回归燃油车的比例实际不足13%
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    7次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    7次使用
  • AI音乐实验室:一站式AI音乐创作平台,助力音乐创作
    AI音乐实验室
    AI音乐实验室(https://www.aimusiclab.cn/)是一款专注于AI音乐创作的平台,提供从作曲到分轨的全流程工具,降低音乐创作门槛。免费与付费结合,适用于音乐爱好者、独立音乐人及内容创作者,助力提升创作效率。
    6次使用
  • SEO标题PixPro:AI驱动网页端图像处理平台,提升效率的终极解决方案
    PixPro
    SEO摘要PixPro是一款专注于网页端AI图像处理的平台,提供高效、多功能的图像处理解决方案。通过AI擦除、扩图、抠图、裁切和压缩等功能,PixPro帮助开发者和企业实现“上传即处理”的智能化升级,适用于电商、社交媒体等高频图像处理场景。了解更多PixPro的核心功能和应用案例,提升您的图像处理效率。
    6次使用
  • EasyMusic.ai:零门槛AI音乐生成平台,专业级输出助力全场景创作
    EasyMusic
    EasyMusic.ai是一款面向全场景音乐创作需求的AI音乐生成平台,提供“零门槛创作 专业级输出”的服务。无论你是内容创作者、音乐人、游戏开发者还是教育工作者,都能通过EasyMusic.ai快速生成高品质音乐,满足短视频、游戏、广告、教育等多元需求。平台支持一键生成与深度定制,积累了超10万创作者,生成超100万首音乐作品,用户满意度达99%。
    9次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码