当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」

从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」

来源:51CTO.COM 2023-04-29 21:00:25 0浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

​ChatGPT在few-shot和zero-shot场景下展现出的惊人性能,让研究人员们更坚定「预训练」是一条正确的路线。

预训练基础模型(Pretrained Foundation Models, PFM)被认为是不同数据模式下各种下游任务的基础,即基于大规模数据,对 BERT、 GPT-3、 MAE、 DALLE-E 和 ChatGPT 等预训练基础模型进行训练,为下游应用提供了合理的参数初始化。

从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」

PFM 背后的预训练思想在大型模型的应用中起着重要作用,与以往采用卷积和递归模块进行特征提取的方法不同,生成预训练(GPT)方法采用 Transformer 作为特征提取器,在大型数据集上进行自回归训练。

随着 PFM 在各个领域获得巨大成功,近几年发表的论文中提出了大量的方法、数据集和评价指标,行业内需要一篇从BERT开始一直追踪到ChatGPT发展过程的全面综述。

最近,来自北航、密歇根州立大学、理海大学、南洋理工、杜克等国内外多所知名院校、企业的研究人员联合写了一篇关于预训练基础模型的综述,提供了在文本、图像和图(graph)等领域的最近的研究进展,以及目前和未来的挑战、机遇。

从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」

论文链接:https://arxiv.org/pdf/2302.09419.pdf

研究人员首先回顾了自然语言处理、计算机视觉和图形学习的基本组成部分和现有的预训练;然后讨论了其他先进的 PFM 的其他数据模式和统一的 PFM 考虑数据质量和数量;以及PFM 基本原理的相关研究,包括模型效率和压缩、安全性和隐私性;最后,文中列出了几个关键的结论,包括未来的研究方向、挑战和开放的问题。

从BERT到ChatGPT

预训练基础模型(PFMs)是大数据时代构建人工智能系统的重要组成部分,其在自然语言处理(NLP)、计算机视觉(CV)和图学习(GL)三大人工智能领域得到广泛的研究和应用。

PFMs是通用模型,在各个领域内或跨领域任务中都很有效,在各种学习任务中学习特征表示方面表现出巨大的潜力,如文本分类、文本生成、图像分类、物体检测和图分类等。

PFMs在用大规模语料库训练多个任务并对类似的小规模任务进行微调方面表现出卓越的性能,使得启动快速数据处理成为可能。

PFMs和预训练

PFMs是基于预训练技术的,其目的是利用大量的数据和任务来训练一个通用模型,在不同的下游应用中可以很容易地进行微调。

预训练的想法起源于CV任务中的迁移学习,在认识到预训练在CV领域的有效性后,人们开始使用预训练技术来提高其他领域的模型性能。当把预训练技术应用于NLP领域时,经过良好训练的语言模型(LMs)可以捕捉到对下游任务有益的丰富知识,如长期依赖关系、层次关系等。

此外,预训练在NLP领域的显著优势是,训练数据可以来自任何未标记的文本语料库,也就是说,在预训练过程中存在着无限量的训练数据。

早期的预训练是一种静态方法,如NNLM和Word2vec,很难适应不同的语义环境;后来有研究人员提出了动态预训练技术,如BERT、XLNet等。

从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」

PFMs在NLP、CV和GL领域的历史和演变

基于预训练技术的PFMs使用大型语料库来学习通用语义表征,随着这些开创性工作的引入,各种PFMs已经出现,并被应用于下游的任务和应用。

一个显著的PFM应用案例就是最近爆火的ChatGPT。

从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」

ChatGPT是从生成式预训练Transformer,即GPT-3.5在文本和代码的混合语料训练后,再微调得到的;ChatGPT使用了来自人类反馈的强化学习(RLHF)技术,也是目前将大型LM与人类的意图相匹配的一种最有前景的方法。

ChatGPT的优越性能可能会导致每一类PFMs的训练范式转变的临界点,即应用指令对齐(instruction aligning)技术,包括强化学习(RL)、prompt tuning和思维链(chain-of-thought),并最终走向通用人工智能。

这篇文章中,研究人员主要回顾了文本、图像和图(graph)相关的PFM,也是一个相对成熟的研究分类方法。

从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」

对于文本来说,语言模型通过预测下一个单词或字符即可实现多种任务,例如,PFMs可用于机器翻译、问题回答系统、主题建模、情感分析等。

对于图像来说,类似于文本中的PFMs,使用大规模的数据集来训练一个适合多个CV任务的大模型。

对于图来说,相似的预训练思路也被用于获得PFMs,可用于诸多下游任务。

除了针对特定数据域的PFMs,文中还回顾并阐述了其他一些先进的PFMs,如针对语音、视频和跨域数据的PFMs,以及多模态PFMs。

此外,一个能够处理多模态的PFMs的大融合趋势正在出现,也就是所谓的统一(unified)PFMs;研究人员首先定义了统一PFMs的概念,然后回顾了近期研究中最先进的统一PFMs,包括OFA、UNIFIED-IO、FLAVA、BEiT-3等。

根据这三个领域现有的PFMs的特点,研究人员得出结论,PFMs有以下两大优势:

1. 只需要进行极少的微调就可以提高模型在下游任务上的表现;

2. PFMs已经在质量方面通过了考验。

与其从头开始建立一个模型来解决类似的问题,更好的选择是将PFMs应用于与任务相关的数据集。

PFMs的巨大前景激发了大量的相关工作来关注模型的效率、安全性和压缩等问题。

这篇综述的特点在于:

  • 研究人员跟踪了最新的研究成果,对PFM在NLP、CV和GL中的发展进行了扎实的总结,讨论并提供了关于这三个主要应用领域中通用的PFM设计和预训练方法的思考结果。

  • 总结了PFMs在其他多媒体领域的发展,如语音和视频,还进一步讨论了关于PFMs的更深层次的话题,包括统一的PFMs、模型效率和压缩,以及安全和隐私。

  • 通过对各种模态下不同任务的PFMs的回顾,讨论了在大数据时代对超大型模型未来研究的主要挑战和机遇,将引导开发新一代基于PFMs的协作和交互智能。

参考资料:​https://arxiv.org/abs/2302.09419

今天关于《从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于ChatGPT,BERT,机构的内容请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
今天是您获得 Windows 11 Bug Bash 贴纸的最后一天今天是您获得 Windows 11 Bug Bash 贴纸的最后一天
上一篇
今天是您获得 Windows 11 Bug Bash 贴纸的最后一天
Windows 11 Build 25151 重新设计了最古老的 Windows 功能之一——使用对话框打开
下一篇
Windows 11 Build 25151 重新设计了最古老的 Windows 功能之一——使用对话框打开
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    341次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    344次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    336次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    340次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    364次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码