当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 硅谷押注,生成式AI火了,让你把简单文字变成图像甚至视频

硅谷押注,生成式AI火了,让你把简单文字变成图像甚至视频

来源:51CTO.COM 2023-05-02 13:02:48 0浏览 收藏

偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《硅谷押注,生成式AI火了,让你把简单文字变成图像甚至视频》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!

最近几年兴起的所谓“生成式人工智能(generative AI)”正吸引硅谷科技巨头和风投机构的兴趣,这种 AI 可以依据少量词汇在几秒钟内生成与之相匹配的图像。分析师预计,这种技术将被广泛用于各行各业,并产生数万亿美元的经济价值。

虽然这些计算机程序生成的图像并不完美,比如手上出现多余的手指,四肢不自然的弯曲等。同时,图像生成器在处理文本时也会遇到问题,例如生成无意义的符号等。然而,这些图像生成程序可能是一场科技热潮的开始。硅谷风投机构 NextView Ventures 的投资人大卫·贝塞尔(David Beisel)说:“在过去的三个月里,‘生成式人工智能’这个词已经变成了流行语。”

从 2021 年开始,生成式 AI 技术取得了巨大进步,甚至激励许多人辞掉工作去创办新公司,梦想着 AI 将来可以为新一代科技巨头提供动力。

在过去五年左右的时间里,AI 领域始终处于蓬勃发展阶段,但这些进步大多与理解现有数据有关。AI 模型已经变得足够高效,可以识别人们刚刚用手机拍摄的照片中是否有一只猫。此外,这些模型也足够可靠,每天可以为谷歌搜索引擎提供数十亿次搜索结果。不过,生成式 AI 模型可以生成以前没有的全新东西。换句话说,它们是在创造,而不仅仅是在分析数据。 

AI 与机器学习平台 Craiyon Productive AI 的创建者鲍里斯·戴玛(Boris Dayma)说:“最令人感到印象深刻的是,生成式 AI 也能创作新的东西。它们不仅仅是创造类似的旧有图像,还可以创造与以前完全不同的新事物。”

硅谷知名风投公司红杉资本(Sequoia Capital)在其网站上发文表示:“从游戏到广告再到法律方面,生成式 AI 可能会改变所有需要人类创造力发挥作用的领域。这种技术有可能产生数万亿美元的经济价值。”更为有趣的是,红杉资本还在帖子中指出,其上述文章部分是由 GPT-3 撰写的,后者本身就是能够生成文本的生成式 AI。

生成式 AI 的工作原理

图像生成使用的技术来自机器学习的一个子集,称为深度学习。自从 2012 年一篇关于图像分类的里程碑式论文重新点燃人们对这项技术的兴趣以来,深度学习推动了 AI 领域的大部分进步。深度学习使用在大数据集上训练的模型,直到该程序理解这些数据中的关系。然后,该模型可以用于应用程序,如识别图片中是否有狗或翻译文本等。

图像生成器的工作原理就是逆转这个过程。它们不是将英语翻译成法语,而是将英语短语转换成图像。它们通常有两个主要部分组成,一个是处理初始短语的部分,另一个是将数据转换成图像的部分。

第一部分生成式 AI 基于名为 Generative Adversarial Networks(生成式对抗网络,简称 GAN)的方法。此前,这些 GAN 通常被用于生成不存在的人的照片。本质上,它们的工作方式是让两个 AI 模型相互竞争,以更好地创建符合预定目标的图像。

而较新的方法通常使用转换器,这是谷歌于 2017 年论文中首次提出的概念。这是一项新兴技术,可以利用更大的数据集,尽管其培训成本可能高达数百万美元。

第一个获得大量关注的图像生成器是 Dall-E,它是硅谷初创公司 OpenAI 于 2021 年推出的项目。OpenAI 今年发布了功能更强大的更新版本。专注于生成式 AI 的开发者克里斯蒂安·坎特雷尔(Christian Cantrell)说:“有了 Dall-E 2,这真的是我们跨越恐怖谷效应(Uncanny Valley)的时刻。”

另一个常用的、基于 AI 的图像生成器是 Craiyon,以前被称为 Dall-E Mini,它可以在网络上买到。用户输入短语后,可以几分钟内在浏览器中看到其给出的绘图。

据 AI 与机器学习平台 Craiyon Productive AI 的创建者戴玛称,自 2021 年 7 月推出以来,Craiyon 现在每天生成约 1000 万张图片,总计生成 10 亿张以前从未见过的图片。在今年早些时候使用量飙升后,戴玛开始将全部精力投入到 Craiyon 上。他说,他专注于使用广告来保持用户免费使用,因为该网站的服务器成本很高。Craiyon 上有个推特账号,专门发布最奇怪、最有创意的图片,它拥有超过 100 万名粉丝。

但最能激发人们热情的项目是 Stable Diffusion,该项目于今年 8 月向公众发布。它的代码可以在 GitHub 上获得,可以在电脑上运行,也可以在云端或通过编程接口运行。这让用户可以根据自己的目的调整程序代码,或者在其基础上构建新程序。

举例来说,Stable Diffusion 通过一个插件集成到 Adobe Photoshop 中,允许用户生成背景和图像的其他部分,然后他们可以使用图层和其他 PS 工具直接在应用中操作,将生成式 AI 从生成成品图像的技术变成了专业人士可以使用的工具。

该插件的开发者坎特雷尔在 Adobe 工作了 20 年,今年辞职专注于生成式 AI。这位资深人士表示,该插件已被下载数万次。艺术家们告诉他,他们把它用在了无数他意想不到的地方,比如制作哥斯拉的动画,或者以艺术家可以想象的任何姿势创作蜘蛛侠的图像。

使用生成式 AI 的一种新兴艺术是如何构建“提示”,即生成图像的短语。名为 Lexica 的搜索引擎可以将 Stable Diffusion 的图像和可用于生成它们的确切单词字符串联起来。Reddit 和 Discord 等平台上,都有如何引导人们输入想要生成图像的短语技巧。

创企、云服务提供商和芯片制造商或受益最大

许多投资者将生成式 AI 视为一种潜在的变革性平台,就像智能手机或互联网的早期一样。这种转变极大地扩大了可能能够使用这项技术的潜在市场规模。

坎特雷尔认为,生成式 AI 类似于一种更基础的技术,即数据库。他说:“生成式 AI 有点儿像数据库,数据库帮助解锁了应用程序的巨大潜力。我们生活中使用过的几乎每款应用都是建立在数据库之上的,但没有人关心数据库是如何工作的,他们只知道如何使用它。”

Compound VC 管理合伙人迈克尔·邓普西(Michael Dempsey)表示,以前仅限于实验室的技术进入主流的时刻“非常罕见”,吸引了风险投资者的大量关注,他们喜欢在潜力巨大的领域下注。但他警告说,生成式 AI 目前处于更接近炒作周期顶峰的“好奇心阶段”。处于这个阶段的公司可能会倒闭,因为它们没有专注于企业或消费者愿意付费的特定用途。

该领域的其他人认为,今天开创这些技术的初创公司最终可能会挑战目前主导 AI 领域的软件巨头,包括谷歌、Facebook 母公司 Meta 以及微软,并为下一代科技巨头的崛起铺平道路。

Hugging Face 首席执行官克莱门特·德兰格(Clement Delangue)说:“将会有一大批价值万亿美元的新公司诞生,这些初创公司将以这种新的技术为基础。”Hugging Face 是个与 GitHub 类似的开发者平台,托管着预先培训的 AI 模型,包括 Craiyon 和 Stable Diffusio。它的目标是让程序员更容易构建 AI 技术。

有些公司已经获得了大量投资。Huging Face 在今年早些时候从 Lux Capital 和红杉资本等投资者那里筹集了资金后,估值达到 20 亿美元。该领域最著名的初创公司 OpenAI 已经从微软和 Khosla Ventures 获得了超过 10 亿美元的资金。与此同时,Stable Diffusion 开发商 Stability AI 正在洽谈以高达 10 亿美元的估值筹集风险资金。

亚马逊、微软和谷歌等云服务提供商也可能受益,因为生成式 AI 可能是计算密集型技术。Meta 和谷歌已经聘请了该领域诸多杰出人才,希望将这种先进技术整合到公司的产品中。今年 9 月,Meta 宣布了名为“Make-A-Video”的 AI 计划,通过生成视频而不仅仅是图像,使这项技术更上一层楼。

Meta 首席执行官马克·扎克伯格(Mark Zuckerberg)在他的 Facebook 页面上发帖称:“这是一个令人惊叹的进步。生成视频比生成照片难得多,因为除了正确生成每个像素之外,系统还必须预测它们会随着时间的推移发生怎样的变化。”最近,谷歌也发布了名为 Phenaki 的程序代码,可以将文本转换为时长几分钟的视频。

这股热潮也可能给英伟达、AMD 和英特尔等芯片制造商带来提振,他们的图形处理器是训练和部署 AI 模型的理想选择。在上周的会议上,英伟达首席执行官黄仁勋强调,生成式 AI 是该公司最新芯片的关键用途,并称这类技术可能很快就会给通信领域带来革命性的变化。

不过,生成式 AI 为终端用户带来的好处依然有限。如今许多令人兴奋的事情都围绕着免费或低成本的实验进行。例如,有些作者已经尝试使用图像生成器为文章制作插图。英伟达正尝试使用模型来生成新的人、动物、车辆或家具的 3D 图像,这些图像可以填充到虚拟游戏世界中。

伦理问题难应对

最终,每个开发生成式 AI 的人都将不得不努力解决图像生成器带来的伦理问题。

首先是就业问题。尽管许多程序需要强大的图形处理器,但计算机生成的内容仍然比专业插画家的时间成本便宜得多,后者每小时的报酬可能高达数百美元。生成式 AI 可能会给艺术家、视频制作人和其他以创作作品为生的人带来大麻烦。Compound VC 管理合伙人迈克尔·邓普西说:“事实证明,机器学习模型可能会变得比人类工作得更好、更快、更便宜。”

围绕原创性和所有权,生成式 AI 也会带来更复杂的挑战。这种 AI 模型是利用大量现有图像进行培训的,原始图像的创建者是否对以原创风格生成的图像拥有版权仍在争论中。一位艺术家最近在美国科罗拉多州的艺术比赛中获胜,他使用的图像主要是由名为 MidJourney 的生成式 AI 创作的。他在获胜后接受采访时表示,他从自己生成的数百张图像中选择了一张,然后在 PS 中对其进行了调整和处理。

由 Stable Diffusion 生成的一些图像似乎留有水印,这表明原始数据集的一部分受到版权保护。有些提示指南建议用户使用特定的、在世艺术家的名字,以便在模仿该艺术家创作风格的过程中获得更好的结果。上个月,Getty Images 禁止用户将生成式 AI 图像上传到其库存图像数据库中,因为其担心引发侵权纠纷。

图像生成器还可以用来创建商标人物或目标的新图像,如小黄人、漫威角色或《权力的游戏》中的王座。随着图像生成软件变得越来越好,它也有可能欺骗用户,让他们相信虚假信息,或者显示从未发生过的事件的图像或视频。

开发者还必须努力应对这样一种可能,即基于大量数据训练的 AI 模型可能会在数据中包含与性别、种族或文化相关的偏见,这可能会导致模型在输出中展示这种偏见。Huging Face 已经发布了有关伦理问题的材料,并就以负责任态度开发 AI 模型的问题进行了讨论。

Hugging Face 首席执行官克莱门特·德兰格说:“我们在这些模型上看到了短期和当前挑战,因为它们属于概率模型,在大数据集上训练,往往会吸收很多偏见。”他举例称,生成式 AI 曾被要求绘制“软件工程师”的画像,结果其生成了白人男性的图像。

以上就是《硅谷押注,生成式AI火了,让你把简单文字变成图像甚至视频》的详细内容,更多关于AI的资料请关注golang学习网公众号!

AI
版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
上一篇
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
豪华酒店四大未来室内技术趋势
下一篇
豪华酒店四大未来室内技术趋势
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    53次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    53次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    74次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    62次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    71次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码