当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举

AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举

来源:搜狐 2023-12-05 21:35:17 0浏览 收藏

大家好,今天本人给大家带来文章《AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!

AI视频生成神器再次登场。最近,阿里巴巴和字节跳动秘密上线了各自的工具

阿里推出了Animate Anyone,该项目由阿里巴巴智能计算研究院开发,你只需提供一个静态的角色图像(包括真人、动漫/卡通角色等)和一些动作、姿势(比如跳舞、走路),便可将其动画化,同时保留角色的细节特征(如面部表情、服装细节等)。

只要有一张梅西的照片,就能让“球王”摆各种Pose(见下图),按照这一原理,让梅西跳舞也不在话下。

新加坡国立大学和字节跳动则联合推出了Magic Animate,同样是利用AI技术,将静态图像变成动态视频。字节方面表示,在挑战性极高的TikTok舞蹈数据集上,Magic Animate生成的视频的真实度比最强基线提高了超过38%。

在图生视频项目中,阿里巴巴和字节跳动齐头并进,几乎同时完成了论文发布、代码公开和测试地址公开等一系列操作,两者的相关论文发布时间仅相差一天

11月27日发布了有关字节的相关论文:

AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举

阿里相关的论文将于11月28日发布:

AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举

两家公司的开源文件在Github上持续更新

AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举

需要重写的内容是:Magic Animate的开源项目文件包

AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举

Animate Anyone的开源项目文件包

这再次点出一个事实:视频生成是AIGC热门竞技项目,科技巨头、明星公司均密切关注并积极投入。据了解,Runway、Meta、Stable AI已经推出AI文生视频应用,Adobe也在近日宣布收购AI视频创作公司Rephrase.ai。

从上述两家公司的展示视频来看,生成效果有了十分显著的提升,流畅度、真实感更胜以往。一改当下图像/视频生成应用存在的缺点,如局部扭曲、细节模糊、不符合提示词、与原图有差别、掉帧、画面抖动。

这两个工具都是通过扩散模型(diffusion models)创造时间连贯的人像动画,其训练数据很多是一样的。两者都用到的Stable Diffusion是由CompVis、Stability AI和LAION的研究人员和工程师创建的文本到图像的潜在扩散模型,该模型使用来自LAION-5B数据库子集的 512x512图像进行训练。LAION-5B是目前存在的最大的、可免费访问的多模式数据集。

谈及应用,阿里的研究人员在论文中表示,Animate Anybody作为基础方法,未来有可能扩展到各种图生视频应用,该工具有许多潜在的应用场景,例如在线零售、娱乐视频、艺术创作和虚拟角色。字节跳动也强调Magic Animate展示了强大的泛化能力,可以应用到多个场景。

多模态应用的“圣杯”:文生视频 文生视频是指通过结合文本和语音的技术,实现对视频内容进行多模态分析和处理的应用。它将文本和语音信息与视频图像进行关联,从而提供更丰富的视频理解和交互体验。 文生视频应用具有广泛的应用领域,包括智能视频监控、虚拟现实、视频编辑和内容分析等。通过文本和语音的分析,文生视频可以识别和理解视频中的对象、场景和动作,从而为用户提供更智能化的视频处理和控制功能。 在智能视频监控领域,文生视频可以实现对监控视频内容的自动标注和分类,从而提高监控效率和准确性。在虚拟现实领域,文生视频可以将用户的语音指令与虚拟环境进行交互,实现更沉浸式的虚拟体验。在视频编辑和内容分析领域,文生视频可以帮助用户自动提取视频中的关键信息,并进行智能编辑和剪辑。 总之,文生视频作为多模态应用的“圣杯”,为视频内容的理解和交互提供了更全面和智能化的解决方案。它的发展将为各个领域带来更多的创新和便利,推动科技进步和社会发展

视频比文字和图片更具优势,它能够更好地表达信息,丰富画面,并具有动态性。视频可以将文本、图像、声音和视觉效果相结合,融合多种信息形式在一个媒体中呈现

AI视频工具具备强大的产品功能,可以开拓更广阔的应用场景。通过简单的文本描述或其他操作,AI视频工具能够生成高质量和完整度的视频内容,从而降低了视频创作的门槛。这使得非专业人士也能够通过视频准确展示内容,有望在各个细分行业中提高内容生产的效率并输出更多创意

国盛证券宋嘉吉此前指出,AI文生视频是多模态应用的下一站,是多模态AIGC“圣杯”,随着AI视频补齐了AI创作多模态的最后一块拼图,下游应用的加速时刻也将到来;申港证券表示,视频AI是多模态领域的最后一环;华泰证券表示,AIGC大潮已逐步从文生文和文生图转向文生视频领域,文生视频的高计算难度和高数据要求将支撑上游AI算力需求持续旺盛。

不过,大公司之间、大公司与初创企业间的差距不算大,甚至可以说处于同一起跑线。当前文生视频可公测应用较少,仅有Runway Gen-2、Zero Scope及Pika等少数几个。即便如Meta和谷歌这样的硅谷人工智能巨头,在文生视频上同样进展缓慢,它们分别推出的Make-A-Video和Phenaki均尚未公测。

从技术方面来看,视频生成工具的底层模型和技术仍在不断优化。目前主流的文生视频模型主要使用Transformer模型和扩散模型。扩散模型的工具主要致力于提升视频质量,克服了效果粗糙、缺少细节的问题。不过,这些视频的时长都在4秒以内

另一方面,尽管扩散模型效果出色,但其训练过程需要大量的内存和算力,这使得只有大公司和获得大量投资的初创企业才能承担得起模型训练的成本

来源:科创板日报

今天关于《AI应用下一个热门应用已经出现:阿里巴巴和字节跳动悄悄上线了一款类似神器,可以让梅西跳舞轻而易举》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!

版本声明
本文转载于:搜狐 如有侵犯,请联系study_golang@163.com删除
不仅仅依赖庞大模型,构建生成式人工智能的要求更多不仅仅依赖庞大模型,构建生成式人工智能的要求更多
上一篇
不仅仅依赖庞大模型,构建生成式人工智能的要求更多
长庚光学首款自动对焦超广角定焦镜头10mm F2.8 C&D Dreamer即将面市
下一篇
长庚光学首款自动对焦超广角定焦镜头10mm F2.8 C&D Dreamer即将面市
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    16次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    30次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    31次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    37次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码