当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?

给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?

来源:51CTO.COM 2023-04-19 12:15:44 0浏览 收藏

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

在正式介绍这篇文章之前,我们先提个问题:下图的表情符号描述的是什么电影呢?

图片

可能连你都猜不出来,这四个符号代表的电影是「海底总动员」,这一提示任务是去年评测大型语言模型(LLM)204 个任务中的其中一个任务。对于最简单的 LLM 模型,给出的回答多少有点胡编乱造,它认为这部电影讲述的是一个男人的故事;相对复杂一点的中型模型,给出的回答是「The Emoji Movie」,这时答案已经很接近了。不过最复杂的模型猜中了,给出「海底总动员」这一答案。

谷歌计算机科学家 Ethan Dyer 表示:「模型的这一行为令人感到惊讶。更令人惊讶的是,这些模型只使用指令:即接受一串文本作为输入,而后预测接下来会发生什么,并完全基于统计数据来不断重复这个过程。」一些学者开始预计,扩大模型规模会提高解决已知任务的性能,但他们未预料到这些模型能突然处理这么多新的、不可预测的任务。

Ethan Dyer 近期所做的一项调查表明,LLM 可以创造出数百种「涌现(emergent)」能力,即大型模型可以完成而小型模型无法完成某些任务的能力。显然,随着模型的扩展能力提升了,从简单的乘法到生成可执行的计算机代码,直到基于表情符号解码电影。新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,一旦超过该阈值,模型的功能就会如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响,即随着复杂性的增加,一些模型在他们的响应 (response) 中表现出了新的偏见和不准确性。

斯坦福大学计算机科学家 Rishi Bommasani 表示:「在我所知道的所有文献中,从未有讨论过语言模型可以做这些事情。」去年,他帮助编制了一份包含数十种模型涌现行为的清单,其中包括 Ethan Dyer 项目中确定的几种行为。如今,该清单仍然在继续变长。

如今,研究人员不仅竞相确定大模型涌现能力,而且还想弄清楚它们发生的原因和方式 —— 本质上是试图预测不可预测性。理解其涌现性可以揭示与人工智能和机器学习有关的深层问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是变得非常擅长统计。此外,它还可以帮助研究人员利用潜在的好处并减少涌现的风险。

突然的涌现

生物学家、物理学家、生态学家和其他科学家使用涌现这一术语来描述当一大批事物作为一个整体行动时出现的自组织集体性行为。无生命原子的组合产生了活细胞;水分子创造了波浪;椋鸟群以不断变化但可识别的队形掠过天空的壮观自然景象;细胞使肌肉运动和心脏跳动。至关重要的是,涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLM 中记录这种涌现能力,因为这些模型刚刚才发展到足够巨大的规模。

语言模型已经存在了几十年。直到大约五年前,最强大的模型还是基于循环神经网络。这些模型本质上取用一串文本并预测下一个单词是什么。使模型循环的原因在于它从自己的输出中学习:它的预测会反馈到网络中以提高未来的性能。

2017 年,谷歌大脑(Google Brain)的研究人员推出了一种被称为 Transformer 的新型架构。当循环网络逐字分析句子时,Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。

「很可能是该模型从根本上学到了一些新的和不同的东西,而这些东西在较小规模的模型上是没有的。」布朗大学的 Ellie Pavlick 表示。

通过增加模型中的参数数量以及其他因素,Transformers 能够快速扩大语言模型的复杂性。这些参数可以被认为是单词之间的连接,通过在训练期间打乱文本,transformers 可以调整这些连接从而改进模型。模型中的参数越多,它就越能准确地建立连接,越接近于模仿人类语言。正如预期的那样,OpenAI 研究人员在 2020 年进行的一项分析发现,模型随着规模的扩大而提高了准确性和能力。

但大型语言模型的问世也带来了很多真正意想不到的东西。随着具有 1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的谷歌 PaLM 等模型的出现,用户开始描述越来越多的涌现行为。一位 DeepMind 工程师甚至报告说能够说服 ChatGPT 承认它是一个 Linux 终端,并让它运行一些简单的数学代码来计算前 10 个素数。值得注意的是,比起在真正的 Linux 设备上运行相同的代码,它可以更快地完成任务。

与通过表情符号描述电影的任务一样,研究人员没有理由认为为预测文本而构建的语言模型会被说服用于模仿计算机终端。这些涌现行为中的许多都证明了零样本或小样本学习,它们描述了 LLM 拥有解决以前从未(或很少)遇到的问题的能力。Ganguli 说,这一直是人工智能研究的长期目标。这也表明 GPT-3 可以在零样本设定中无需任何明确训练数据的情况下解决问题,Ganguli 表示,「这让我放弃了我正在做的事情,更多地参与到这项研究中。」

在这个研究领域里,他并不孤单。大量研究人员已经发现了 LLM 可以超越其训练数据限制的第一个线索,他们正在努力更好地理解涌现是什么样子的以及它是如何发生的。而要做的第一步就是彻底全面地记录它。

Ethan Dyer 帮助探索了大型语言模型具有什么样意想不到的能力,以及它们会带来什么。-Gabrielle Lurie

超越模仿

2020 年,Dyer 和谷歌研究院的其他研究人员预测大型语言模型将产生变革性影响 —— 但这些影响是什么仍然是一个悬而未决的问题。因此,他们要求研究界提供有关困难且多样化任务的例子,以记录追踪 LLM 可以做什么的外部极限。这项工作被称为 BIG-bench(Beyond the Imitation Game Benchmark) 项目,借用了艾伦・图灵 (Alan Turing) 模仿游戏的名称,目的是测试计算机是否能够以让人信服的人类方式回答问题。(这后来被称为图灵测试。)该研究组对 LLM 突然获得前所未有新能力的例子特别感兴趣。

正如人们所预料的那样,在某些任务中,随着复杂性的增加,模型的性能会得到更为稳定且可预测性的提升。而在其他任务上,扩大参数数量并没有对模型性能产生任何改善。而对于大约 5% 的任务,研究人员发现了他们所谓的突破 —— 在某个阈值范围内,性能出现了快速、戏剧性的跃升。不过该阈值会因任务和模型而异。

例如,参数相对较少(仅有几百万)的模型可能无法成功完成三位数的加法或两位数的乘法问题,但若拥有数百亿参数,某些模型的运算准确性会飙升。类似的性能跃升也出现在其他的一些任务中,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的组合)段落中的冒犯性内容,以及生成与斯瓦希里语谚语类似的英语对应语。

但是,研究人员很快就意识到,模型的复杂性并不是其性能涌现的唯一驱动因素。如果数据质量足够高,一些意想不到的能力可以从参数较少或是在较小数据集上训练的较小模型中诱导而出。此外,查询的措辞方式也会影响模型响应的准确性。例如,当 Dyer 和他的同事使用多项选择格式(multiple-choice format)来安排电影表情符号任务时,准确性并不是突然的跳跃式提高,而是随着模型复杂性的增加而逐渐提高。去年,在该领域的顶级学术会议 NeurIPS 上发表的一篇论文中,谷歌大脑(Google Brain)的研究人员展示了一个具备 prompt 的模型可以自我解释(一种被称为思维链推理的能力)如何正确解答数学应用题,而没有该 prompt 的同一模型却不能解答该应用题。

在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。

谷歌大脑系统性研究科学家 Yi Tay 指出,最近的研究表明思维链 prompt 改变了扩展曲线,从而改变了模型涌现出现的节点。谷歌研究人员在他们的 NeurIPS 论文中表明,使用思维链 prompts 可以引发 BIG-bench 研究中未识别到的涌现行为。此类要求模型解释其推理的 prompt 可能有助于研究人员开始调研涌现发生的原因。

布朗大学研究语言计算模型的计算机科学家 Ellie Pavlick 说,最近的这些发现至少表明了涌现出现原因的两种可能性。第一个可能性是,正如与生物系统的比较所表明的那样,更大的模型确实会自发地获得新的能力。很可能是该模型学到了一些全新的和不同的东西,而这些东西在较小规模的模型上是没有的,这就是我们都希望的情况,即当模型按比例放大时会发生一些根本性的变化。

Ellie Pavlick 还指出,另一种相对正常客观的可能性是,看似涌现的事情可能反而是通过思维链式推理起作用的内部统计驱动过程的顶点。大型 LLM 可能只是在学习启发式方法,而这些启发式方法对于那些参数较少或数据质量较低的小模型来说却是难以理解的。

不过 Pavlick 认为,由于我们不知道模型底层的工作机制是怎样的,所以我们无法说出发生了哪些事情。

不可预测的能力和缺陷

但是大模型也存在缺陷,比如谷歌前段时间推出的人工智能聊天机器人 Bard,在回答与詹姆斯・韦布空间望远镜有关的问题时犯下事实性错误。

涌现导致了不可预测性,而不可预测性 —— 似乎随着模型的规模扩大而增加,研究人员难以掌控。

「我们很难提前知道这些模型将如何被使用或部署,」Ganguli 说。「要研究涌现现象,你必须考虑一个情况,在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。」

在去年 6 月发布的一篇 LLM 分析报告中,Anthropic 的研究人员研究了这些模型是否会表现出某些类型的种族或社会偏见,这与之前不是基于 LLM 的算法(用于预测哪些前罪犯可能会再次犯罪)所报告的那些不同。该研究的灵感来自一个与涌现直接相关的明显悖论:随着模型在扩大规模时性能提升,它们也可能增加不可预测现象的可能性,包括那些可能导致偏见或带来害处的现象。

「某些有害行为会在某些模型中突然出现,」Ganguli 说。他指出最近一个对 LLM 的分析 —— 也被称为 BBQ 基准 —— 表明社会偏见随着大量参数的出现而出现。「 更大的模型突然变得更有偏见,」 他说,如果不能解决这一风险,可能会危及这些模型的使用。

但他还提出了一个相反的观点:当研究人员简单地告诉模型不要依赖刻板印象或社会偏见时 —— 字面上来说,就是通过输入这些指令时,模型在其预测和响应时的偏见较小。这表明一些涌现的特性也可用于减少偏见。在 2 月份发布的一篇论文中,Anthropic 团队报告了一种新的道德自我修正模式,在这种模式下,用户提示程序是有帮助的、诚实的和无害的。

Ganguli 说,涌现既揭示了大型语言模型惊人的潜力,也揭示了其不可预测的风险。这些 LLM 的应用已经激增,因而更好理解这种双面性将有助于利用语言模型能力的多样性。

Ganguli 说:「我们正在研究用户实际上是如何使用这些系统的,不过他们也在不断地修补改进这些系统。我们花了很多的时间,只是为了与我们的模型聊天,使其功能更好。而实际上也就是从那时起,我们开始信任这些模型。」

文中关于ChatGPT,预测的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
从ODS到ADS,详解数仓分层!从ODS到ADS,详解数仓分层!
上一篇
从ODS到ADS,详解数仓分层!
度小满自动机器学习平台实践
下一篇
度小满自动机器学习平台实践
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    31次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    29次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    27次使用
  • 可图AI 2.0:快手旗下新一代图像生成大模型,专业创作者与普通用户的多模态创作引擎
    可图AI 2.0图片生成
    可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
    31次使用
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    46次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码