当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 从AI@'22大会,看谷歌的生成式AI战略及进展

从AI@'22大会,看谷歌的生成式AI战略及进展

来源:51CTO.COM 2023-04-30 06:34:14 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《从AI@'22大会,看谷歌的生成式AI战略及进展》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

 

从AI@'22大会,看谷歌的生成式AI战略及进展

2022年是生成式AI发展进程中的重要一年。大型语言模型在生成文本和软件代码方面不断取得进展。与此同时,随着DALL-E2、Imagen和StableDiffusion等模型的引入,人们看到了文本到图像生成器的巨大进步。  

2022年还标志着生成式AI模型的产品化加速。生成模型的科学和技术如今已经发展成熟到能够解决实际问题的地步。像微软和谷歌这样的公司正在寻求一个新市场中占据领先地位的方法,这可能会改变创造力的未来。

谷歌公司在其日前举办的AI@'22大会上,展示了在其产品利用生成模型的路线图。其战略可能是该领域的发展方向和未来竞争可能发生变化的前奏。  

谷歌的生成模型进展

从AI@'22大会,看谷歌的生成式AI战略及进展

谷歌Parti使用Transformers从文本令牌创建图像

在AI@'22会议上,谷歌研究中心首席科学家Douglas Eck列出了该公司目前在四个领域对生成模型的研究:文本、源代码、音频、图像和视频。  

谷歌目前正在所有这些领域运行测试项目,着眼于在未来创建产品。Wordcraft Writers Workshop致力于帮助作者在写作中从大型语言模型中获得帮助。这是一个使用语言模型LaMDA根据用户提供的提示生成文字的工具。该工具被设计成在一个迭代过程中使用模型,在这个过程中,作者和大型语言模型(LLM)进行交互,共同创建故事。  

Eck说,“使用LaMDA来写一个完整的故事将成为了一个死胡同。当它用来增加趣味、为特定角色或增强故事的某个方面时,这可能是一个更有效的工具。用户界面也必须是正确的。Wordcraft工具是从头开始设计的,可以让作者与生成模型进行交互。”

学习代码是一个使用大型语言模型(LLM)为开发人员生成代码建议的项目。谷歌目前正在内部测试该工具,它包括单行和多行代码完成建议。  

AudioLM使用语言模型生成音频。该模型将一个音频样本作为输入。它可以用来生成音乐和语音。  

也许Eck在AI@'22会议上展示的最先进的模型是文本到图像模型Imagen和Parti。Imagen的工作原理类似于OpenAI的DALL-E2,它使用扩散模型将语言嵌入转化为图像。Parti使用Transformers架构从文本标记生成图像。DreamBooth是一个可以调优文本到图像生成器(如Imagen)的模型,以在不同的场景中显示主题。DreamFusion将扩散模型的功能与神经辐射场(NeRF)结合起来,神经辐射场(NeRF)是一种深度学习架构,可以从2D图像创建3D模型。  

从AI@'22大会,看谷歌的生成式AI战略及进展

谷歌DreamBooth对生成模型进行微调,以在不同的环境中显示特定的主题

Eck还展示了谷歌与Imagen Video和Phenaki在视频生成方面的研究的预览。Imagen Video使用扩散模型创建一系列高分辨率图像,这些图像可以拼接在一起创建视频。Phenaki基于Transformers架构,将文本提示序列转换为图像序列。Imagen Video和Phenaki结合使用,可根据提示序列创建高分辨率视频。

谷歌的生成模型战略

Eck在会上演讲中明确表示,生成式模型并不意味着自动化或取代人类的创造力。“这不再是一个创造现实画面的生成模型,而是自己创造的东西。技术应该满足我们的需要,让我们对自己的工作有代理权和创造性的控制权。”

在讨论谷歌的“负责任的AI”战略时,他进一步强调了这一点,并在演讲结束时说:“创造力是使我们成为人类的重要组成部分。我认为在构建这些AI系统时,牢记这一点很重要。”

Eck的一些言论是为了缓解生成式AI模型取代人类创造力的恐惧(这在很大程度上被夸大了),强调积极的影响,将该领域转向以人为中心的AI。AI系统应该以一种提供透明度和控制的方式设计,以增强人类的能力。如果没有人类的控制和监督,生成模型等AI系统将表现不佳,因为它们无法像人类一样掌握基本概念。  

谷歌能在生成式AI领域获得竞争优势吗?

AI研究和产品化之间的差距很难弥合。当然,谷歌的大型语言模型(LLM)和文本到图像模型的质量不会低于OpenAI的GPT-3和DALL-E2。但问题是,谷歌能否基于这些模式推出成功的产品?  

在考虑将技术产品化时,需要考虑以下一些问题:这项技术会成为新产品的基础技术吗?如果没有,它会被集成到现有的产品中吗?它解决的是什么问题,目前存在的替代解决方案是什么?产品是否提供了足够的附加值来说服用户转换?它是否有助于巩固企业在现有市场中的地位?  

企业通常会将技术带到他们擅长的领域或市场。在写作领域,微软领先于谷歌。Office 365的市场份额超过了GSuite,在将大型语言模型(LLM)集成到其产品中方面,微软公司已经领先一步。  

微软在GitHub Copilot和Codex的编码方面也处于领先地位,它们已经进入生产模式,而不是谷歌的内部代码生成工具。谷歌最受欢迎的开发工具是Colab和Android Studio,这将为它提供一个测试和推出代码AI的场所。但这些集成开发环境(IDE)的市场份额无法与微软的Visual Studio Code和GitHub Codespaces(也属于微软)相提并论。  

在图像、视频和音频领域,Adobe公司将成为生成式AI的赢家。Adobe公司已经拥有最大的市场份额和完善的工具,并定期更新AI功能。Adobe已经在其工具套件中尝试生成式AI工具。  

然而,这并不意味着现有这些公司一定会主导生成式AI领域。目前,从目前使用的工具(如文字处理器、集成开发环境和图像编辑应用程序)的角度来看待生成模型。基本上,行业厂商正在研究生成模型如何自动化或改进已经在做的任务(完成句子、编写代码块、编辑或生成照片等等)。当他们创造新的工具系统和工作流程时,AI的真正潜力将得到充分发挥,这些工具和流程能够充分利用生成模型和AI的其他进步,以完全不同的方式来实现目标。  

正如谷歌重塑了信息发现模式,亚马逊随着网络的普及重塑了购物模式那样,发现并拥抱AI新机遇的企业必然会改变市场现状或塑造新的市场。

好了,本文到此结束,带大家了解了《从AI@'22大会,看谷歌的生成式AI战略及进展》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
首届海淀“警学联盟·校园无诈”创意大赛开始啦!首届海淀“警学联盟·校园无诈”创意大赛开始啦!
上一篇
首届海淀“警学联盟·校园无诈”创意大赛开始啦!
如何在 iPhone 上设置更强的密码
下一篇
如何在 iPhone 上设置更强的密码
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    16次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    16次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    18次使用
  • 可图AI 2.0:快手旗下新一代图像生成大模型,专业创作者与普通用户的多模态创作引擎
    可图AI 2.0图片生成
    可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
    23次使用
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    34次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码