被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了
科技周边不知道大家是否熟悉?今天我将给大家介绍《被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!
随着语言模型和语料库规模的逐渐扩大,大型语言模型(LLM)展现出更多的潜力。近来一些研究表明,LLM 可以使用 in-context learning(ICL)执行一系列复杂任务,例如解决数学推理问题。
来自北京大学、上海 AI Lab 和加州大学圣巴巴拉分校的十位研究者近期发布了一篇关于 in-context learning 的综述论文,详细梳理了 ICL 研究的当前进展。
论文地址:https://arxiv.org/pdf/2301.00234v1.pdf
in-context learning 的核心思路是类比学习,下图描述了语言模型如何使用 ICL 进行决策。
首先,ICL 需要一些样例来形成演示语境,这些样例通常用自然语言模板编写。然后,ICL 将查询问题和演示语境相联系,形成 prompt,并且将其输入语言模型进行预测。与监督学习需要使用反向梯度更新模型参数的训练阶段不同,ICL 不需要参数更新即可使预训练语言模型直接执行预测任务,并且模型有望学习演示样例中隐藏的模式,并据此做出正确的预测。
作为一种新的范式,ICL 有很多吸引人的优势。首先,演示样例用自然语言格式编写,这为与大语言模型关联提供了一个可解释的接口。通过改变演示样例和模板(Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c),这种范式使将人类知识纳入语言模型变得更加容易。第二,in-context learning 类似于人类通过类比学习的决策过程。第三,与监督式训练相比,ICL 是一个无需训练的学习框架。这不仅可以大大降低模型适应新任务的计算成本,而且还可以使语言模型即服务(LMaaS,Sun et al., 2022)成为可能,并轻松应用于大规模的现实任务。
尽管 ICL 有着大好的前景,但仍存在许多值得探究的问题,包括它的性能。例如原始的 GPT-3 模型就具备一定的 ICL 能力,但一些研究发现,通过预训练期间的适应,这种能力还可以获得显著的提升。此外,ICL 的性能对特定的设置很敏锐,包括 prompt 模板、语境样例的选择和样例顺序等。此外,ICL 的工作机制虽然看似合理,但仍不够清晰明了,能够初步解释其工作机制的研究也不多。
本篇综述论文总结道,ICL 的强大性能依赖于两个阶段:
- 培养大型语言模型 ICL 能力的训练阶段;
- 大型语言模型根据特定任务演示进行预测的推理阶段。
在训练阶段,语言模型直接按照语言建模目标进行训练,例如从左到右的生成。尽管这些模型并没有专门针对 in-context learning 进行优化,但 ICL 的能力依旧令人惊喜。现有的 ICL 研究基本以训练良好的语言模型为主干。
在推理阶段,由于输入和输出的 label 都是用可解释的自然语言模板表征的,因此 ICL 性能可以从多个角度得到优化。该综述论文进行了详细的描述和比较,并选择合适的例子进行演示,针对不同的任务设计具体的评分方法。
这篇综述论文的大致内容和结构如下图所示,包括:ICL 的正式定义 (§3)、warmup 方法 (§4)、prompt 设计策略 (§5) 和评分函数 (§6)。
此外,§7 深入阐述了当前为揭开 ICL 背后工作原理所做的探索。§8 进一步为 ICL 提供了有用的评估与资源,§9 介绍了能显示出 ICL 有效性的潜在应用场景。最后,§10 总结了 ICL 领域存在的挑战和潜在的方向,为该领域的进一步发展提供参考。
感兴趣的读者可以阅读论文原文,了解更多研究细节。
以上就是《被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了》的详细内容,更多关于模型,论文的资料请关注golang学习网公众号!

- 上一篇
- 一张快照就能还原出一段视频!AAAI 2023论文提出快照压缩成像新算法

- 下一篇
- Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
-
- 科技周边 · 人工智能 | 33分钟前 |
- AI证件照生成原理全解析
- 152浏览 收藏
-
- 科技周边 · 人工智能 | 33分钟前 | 性能优化 动态背景 VisionStory 视觉叙事 粒子效果
- VisionStory粒子效果教程动态背景制作教程
- 116浏览 收藏
-
- 科技周边 · 人工智能 | 38分钟前 |
- 豆包AI代码生成方法豆包编程教程详解
- 254浏览 收藏
-
- 科技周边 · 人工智能 | 56分钟前 |
- DeepSeekAPI调用教程与使用方法
- 413浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 数据分析 线下活动 转化率 DecktopusAI 事前问卷
- DecktopusAI如何制作高转化问卷?
- 463浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 小米SU7保值率88.91%引热议
- 200浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- AI模型数据工具怎么配合豆包使用?详细教程
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- AI摘要与搜索结果有何不同?
- 127浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 152次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 146次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 159次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 155次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 163次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览