参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!
由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。
当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。
如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。
解码器提示的 DALL-E
神奇的「突现」能力
自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游NLP任务的性能和样本效率。
在许多情况下,我们可以通过推断较小模型的性能趋势预测大型语言模型的性能。例如,规模对语言模型困惑的影响已被验证跨越超过七个数量级。
然而,某些其他任务的性能却并没有以可预测的方式提高。
例如,GPT-3的论文表明,语言模型执行多位数加法的能力对于从100M到13B参数的模型具有平坦的缩放曲线,近似随机,但会在一个节点造成性能的飞升。
鉴于语言模型在NLP研究中的应用越来越多,因此更好地理解这些可能意外出现的能力非常重要。
在近期发表在机器学习研究(TMLR)上的论文「大型语言模型的突现能力」中,研究人员展示了数十个扩展语言模型所产生的「突现」能力的例子。
这种「突现」能力的存在提出了一个问题,即额外的缩放是否能进一步扩大语言模型的能力范围。
某些提示和微调方法只会在更大的模型中产生改进
「突现」提示任务
首先,我们讨论在提示任务中可能出现的「突现」能力。
在此类任务中,预先训练的语言模型会被提示执行下一个单词预测的任务,并通过完成响应来执行任务。
如果没有任何进一步的微调,语言模型通常可以执行训练期间没有看到的任务。
当任务在特定规模阈值下不可预测地从随机性能飙升至高于随机性能时,我们将其称为「突现」任务。
下面我们展示了三个具有「突现」表现的提示任务示例:多步算术、参加大学水平的考试和识别单词的预期含义。
在每种情况下,语言模型的表现都很差,对模型大小的依赖性很小,直到达到某个阈值——它们的性能骤升。
对于足够规模的模型,这些任务的性能只会变得非随机——例如,算术和多任务NLU任务的训练每秒浮点运算次数(FLOP)超过10的22次方,上下文任务中单词的训练FLOP超过10的24次方。
「突现」提示策略
第二类「突现」能力包括增强语言模型能力的提示策略。
提示策略是用于提示的广泛范式,可应用于一系列不同的任务。当它们对小型模型失败并且只能由足够大的模型使用时,它们被认为是可「突现」的。
思维链提示是「突现」提示策略的一个典型示例,提示模型在给出最终答案之前生成一系列中间步骤。
思维链提示使语言模型能够执行需要复杂推理的任务,例如多步数学单词问题。
值得一提的是,模型无需经过明确培训即可获得思维链推理的能力,下图则显示了一个思维链提示的示例。
思维链提示的实证结果如下所示。
对于较小的模型,应用思维链提示并不会优于标准提示,例如当应用于GSM8K时,这是一个具有挑战性的数学文字问题基准。
然而对于大型模型,思维链提示在GSM8K上达到了57%的解决率,在我们的测试中性能显著提升。
研究「突现」能力的意义
那么研究「突现」能力,又究竟有什么意义呢?
识别大型语言模型中的「突现」能力,是理解此类现象及其对未来模型能力的潜在影响的第一步。
例如,由于「突现」小样本提示能力和策略没有在预训练中明确编码,研究人员可能不知道当前语言模型的小样本提示能力的全部范围。
此外,进一步扩展是否会潜在地赋予更大的模型「突现」能力,这个问题同样十分重要。
- 为什么会出现「突现」能力?
- 当某些能力出现时,语言模型的新现实世界应用会被解锁吗?
- 由于计算资源昂贵,能否在不增加扩展性的情况下通过其他方法解锁突现」能力(例如更好的模型架构或训练技术)?
研究人员表示,这些问题尚且不得而知。
不过随着NLP领域的不断发展,分析和理解语言模型的行为,包括由缩放产生的「突现」能力,是十分重要的。
终于介绍完啦!小伙伴们,这篇关于《参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 工业机器人的六大趋势

- 下一篇
- 一文聊聊自动驾驶三大核心要素
-
- 科技周边 · 人工智能 | 6分钟前 |
- 小鹏P7星暮紫配色亮相何小鹏赞高级浪漫
- 493浏览 收藏
-
- 科技周边 · 人工智能 | 9分钟前 |
- MidjourneyV6新功能:StyleRaw与Stylize教程
- 205浏览 收藏
-
- 科技周边 · 人工智能 | 9分钟前 |
- Gemini如何限制回答长度?
- 473浏览 收藏
-
- 科技周边 · 人工智能 | 23分钟前 |
- 公众号文章创作全流程与实用技巧分享
- 374浏览 收藏
-
- 科技周边 · 人工智能 | 51分钟前 |
- AI视频工具推荐:做虾仁动漫超好用
- 400浏览 收藏
-
- 科技周边 · 人工智能 | 57分钟前 |
- AI剪辑如何提升视频制作效率?
- 444浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦AI滤镜教程:风格调整技巧分享
- 417浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 豆包AI PromptEngineering 人工润色 带货文案 直播脚本
- 豆包AI文案技巧与直播脚本生成方法
- 232浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 96次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 89次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 107次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 98次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 100次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览