当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

来源:机器之心 2024-07-26 14:18:33 0浏览 收藏

今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!

智谱大模型团队自研打造。


自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。

刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
即日起,清影上线清言 App,所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App,你也可以在「AI 动态照片小程序」上进行操作,快速为手机里的照片实现动态效果。
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
智谱「清影」生成的视频时长有 6 秒,清晰度达到 1440×960,所有用户均可以免费使用。
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
  • PC 端访问链接:https://chatglm.cn/
  • 移动端访问链接:https://chatglm.cn/download?fr=web_home

智谱 AI 表示,随着技术的不断发展,「清影」的生成能力很快将可以用于短视频制作,广告生成甚至电影剪辑等工作中。

在生成式 AI 视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。「我们积极在模型层面探索更高效的 scaling 方式。」在智谱 Open Day 上,智谱 AI CEO 张鹏表示:「随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。」

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

拿捏各种风格

从目前的一些 Demo,以及简单试用的情况看来,智谱 AI 的「清影」具有如下特点:

  • 在风景、动物、科幻、人文历史等类型的视频内容上生成的表现较好;
  • 擅长生成的视频风格包括卡通风格、真实摄影风格、二次元动漫风格等;
  • 实体类型呈现效果上看,动物 > 植物 > 物品 > 建筑 > 人物。

它既可以文字生成视频,也可以完成图生视频,生成的风格覆盖奇幻动画风格。

文生视频

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:一个法师正在海浪中施展法术,宝石将海水都聚集过来,打开了一道魔法传送门。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:蘑菇变成小熊。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

到真实景物:

提示词:在一片森林中,人视,参天大树遮蔽着太阳,树叶的缝隙中洒下一些阳光,丁达尔效应。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:一只水豚鼠像人一样站立着,手里拿着冰激凌,开心得吃起来。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

图生视频

除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的「老照片动起来」小程序也会同步上线,只需一步上传老照片,AI 就能让凝练在旧时光中的照片灵动起来。

提示词:一条自由移动的七彩鱼。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:图中男子站起来,风吹着他的头发。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:小黄鸭玩具漂浮在游泳池的水面,特写。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

再到现代艺术:

提示词:摄像机围绕着一大堆老式电视旋转,这些电视播放着不同的节目 ——20 世纪 50 年代的科幻电影、恐怖电影、新闻、静态、70 年代的情景喜剧等,背景设在纽约博物馆的一个大型画廊里。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:掏出一个苹果手机拍照。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

无提示词。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

你常用的表情包,智谱 AI 能把它延长成「连续剧」。

提示词:师徒四人伸出手互相击掌,脸上是困惑的表情。智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量提示词:小猫张大了嘴,脸上是困惑表情,很多问号。 智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
可以看出,清影各类风格都可以拿捏,还有更多的玩法等待人们来发掘。只需要在智谱清言 PC/APP 上,点击「清影智能体」功能,就可以让你的每一个创意在瞬间化为现实。

全自研技术

All in 大模型的智谱 AI,很早就开始部署多模态生成式 AI 模型。从 2021 年开始,智谱 AI 先后发布了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)等多项研究。

据介绍,「清影」依托于智谱 AI 大模型团队自研打造的新一代视频生成大模型 CogVideoX。

去年 11 月,其团队基于文生图模型 CogView2 打造出了文本到视频生成模型 CogVideo,并随后将其开源。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

CogVideo 拥有 94 亿参数,它通过 CogView2 生成一系列初始帧,基于双向注意力模型对图像进行插帧的方法实现视频生成。此外,CogVideo 根据文本描述生成 3D 环境,可直接利用预训练模型,避免了昂贵的训练,它也支持中文的 Prompt 输入。

本次清影底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。

OpenAI 的 Sora 横空出世,让 AI 在视频生成方面取得了显著进展,但大多数模型在生成具有连贯性和逻辑一致性的视频内容方面仍然存在困难。 

为了解决这些问题,智谱 AI 自研了一个高效的三维变分自编码器结构(3D VAE),可以将原视频空间极致压缩到 2%,使得模型训练成本大幅下降,训练难度也大大降低。

模型结构采用因果三维卷积(Causal 3D convolution)为主要模型组件,并将自编码器中常用的注意力模块移除,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积使得模型视频编解码具备从前向后的序列独立性, 这有助于通过微调将模型扩展到更高帧率和更长时间的场景。 

除此以外,视频生成还面临这样一个问题,即视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱 AI 自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,进而构建海量的高质量视频文本对,使得训练出的模型指令遵循度高。
 
最后值得一提的是,智谱 AI 自研了一个将文本、时间、空间融合起来的 transformer 架构,该架构没有采用传统 cross attention 模块,而是在输入阶段就将文本嵌入和视频嵌入连接起来,以便更充分地进行两种模态的交互。

然而文本和视频特征空间存在很大差异,智谱 AI 通过 expert adaptive layernorm 对两者分别进行处理,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

智谱 AI 表示,通过优化技术,智谱 AI 生成式视频模型的推理速度提升了 6 倍。目前生成 6s 视频,模型花费的理论时间是 30 秒钟。

如今随着「清影」的上线,视频生成赛道又出现了智谱 AI 这位重磅玩家。

除了人人都能尝试的应用之外,清影 API 也同步上线大模型开放平台 bigmodel.cn,企业和开发者可以通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。
 
随着各家公司 AI 视频生成功能的不断上线,今年的生成式 AI 竞赛已经进入白热化阶段。对于大多数用户来说,选择也更多了:现在,无论是完全没有视频制作基础的人,还是专业的内容创作者,都能借助大模型能力实现视频创作。

好了,本文到此结束,带大家了解了《智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
防止 JavaScript 中的弱加密防止 JavaScript 中的弱加密
上一篇
防止 JavaScript 中的弱加密
谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back
下一篇
谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    13次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    14次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    27次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    26次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    53次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码