Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3
本篇文章给大家分享《Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
虽然大型语言模型在NLP领域展现出的强大性能十分惊人,但其带来的负面代价也很严重,比如训练过于昂贵,难以更新等。,而且很难处理长尾知识。
并且语言模型通常采用在预测层采用一个包含有限词汇量的softmax层,基本上不会输出少见的单词或短语,极大限制了模型的表达能力。
为了解决模型的长尾问题,最近来自华盛顿大学、Meta AI和艾伦人工智能研究所的学者联合提出了首个「非参数化掩码语言模型」(NonParametric Masked language model, NPM),通过参考语料库中每个短语的非参数化分布来代替softmax输出。
论文链接:https://arxiv.org/abs/2212.01349
代码链接:https://github.com/facebookresearch/NPM
NPM可以通过对比目标(contrastive objective)和批内近似于检索完整语料库的方式进行有效训练。
研究人员对9个封闭式任务和7个开放式任务进行了zero-shot评估,包括强调需要预测新事实或罕见短语的时空转换和词级翻译任务。
结果发现,无论是否采用检索和生成的方法,NPM都明显优于较大的参数模型,比如参数量高500倍的GPT-3和37倍的OPT 13B性能还强不少,并且NPM在处理罕见模式(词义或事实)和预测罕见或几乎未见过的词(如非拉丁文字)方面尤其出色。
首个非参数化语言模型
虽然结合现有的一些检索和生成(retrieve-and-generate)的相关工作可以缓解该问题,但这些模型的最终预测部分仍然需要一个softmax层来预测token,没有从根本上解决长尾问题。
NPM由一个编码器和一个参考语料库组成,编码器将文本映射成一个固定大小的向量,然后NPM从中检索出一个短语并填入[MASK]。
可以看到,NPM选择在短语上得到的非参数化分布,而没有使用一个固定的输出词汇softmax作为输出。
但训练非参数化模型也带来了两个关键的问题:
1. 在训练过程中检索完整的语料库是非常耗时耗力的,研究人员通过使用完整语料库检索的批内近似值来解决;
2. 在没有解码器的情况下学习预测任意长度的短语是很困难的,研究人员通过扩展span masking和短语级别的对比目标来解决。
总之,NPM完全删除了输出词汇的softmax,通过预测任意数量的n-gram,实现了有效的无界输出空间。
由此产生的模型可以预测「极其罕见」甚至是「完全未见过」的单词(如韩语单词),并可以有效地支撑无限的词汇量,而现有的模型都无法做到这一点。
NPM方法
NPM的关键思想是使用编码器将语料库中的所有短语映射到一个密集的向量空间中。在推理时,当给定一个带有[MASK]的查询后,使用编码器从语料库中找到最近的短语并填入[MASK]。
纯编码器(Encoder-only)模型是一个很有竞争力的表示模型,但现有的纯编码模型无法进行token数量未知的预测,使得它们的使用情况在没有微调的情况下受到限制。
NPM通过检索一个短语来填补[MASK]中的任意数量的token,从而解决了这个问题。
推理
编码器将参考语料库C中的每个不同的短语都映射到一个密集的向量空间中。
在测试时,编码器将被masked的查询映射到相同的向量空间中,并从C中检索出短语来填充[MASK]。
在这里,C不一定要和训练语料库一样,在测试时可以被替换或扩展,而不需要重新训练编码器。
在实践中,语料库中存在大量的短语,对所有的短语进行索引是很昂贵的。
比如我们考虑最多有 l 个token的短语(l≈20),就需要索引 l×|C| 数量的向量,这可能会很耗时。
研究人员对C中每个不同的token进行索引,从而将索引的大小从l×|C|减少到 |C|,然后在测试时,通过对开头和结尾分别进行k近邻搜索,对所有短语的非参数分布进行近似。
比如由4个BPE token组成的短语Thessaloniki用c1和c4的连接来表示,分别对应于该短语的开始(The)和结束(iki)。
然后用同一向量空间中的两个向量q_start和q_end来表示一个查询,然后用每个向量来检索似是而非的短语的开始和结束,然后再进行聚合。
这样做的前提是开始和结尾的表示足够好,即q起点足够接近c1,q终点足够接近c4,而这一点在训练过程中已经得到确保了。
训练
NPM是在无标签的文本数据上训练的,以确保编码器将文本映射到一个良好的密集向量空间。
训练NPM主要有两个难题:1)完整的语料库检索会使训练非常耗时;2)用任意长度的短语而不非token来填充[MASK]。
1. 掩码Masking
片段掩码(span masking)就是对长度从几何分布中取样的连续token进行mask。
研究人员对此进行扩展:
1)如果某些片段在batch中的其他序列中共同出现,再对其进行屏蔽,以保证在训练期间该批次内的正例(in-batch positives)。
比如,屏蔽的片段2010、the Seattle Seahawks和to the都在另一个序列中共同出现。
但对于「game ,」这个bigram来说就无法一起被mask,虽然它们也都出现在两个序列中,但它们并没有在一起共现。
2)不是用[MASK]来替换片段中的每个token,而是用两个特殊的token [MASKs][MASKe]来替换整个片段。
比如上面的例子中,不论被mask的片段长度如何,都被替换成[MASKs][MASKe],从而可以获得每个片段的起点和终点向量,更方便推理。
2. 训练目标
假设被mask的片段是the Seattle Seahawks,在测试时,模型应该从参考语料库的其他序列中检索出the Seattle Seahawks这一短语。
而在推理阶段,模型从[MASKs]和[MASKe]中获得向量,并利用它们分别从语料库中检索出短语的开始和结束。
因此,训练的目标应该鼓励[MASKs]的向量更接近于the Seattle Seahawks中的the,而与其他token相距较远,并且不应该是任意一个短语中的the,比如become the first中。
通过将完整的语料库近似为batch中的其他序列来训练模型来做到这一点,具体来说,训练模型从同一batch的其他序列中检索出the Seattle Seahawks这一片段的起点和终点。
需要注意的是,该mask策略确保每个被遮蔽的跨度在一个batch中都有一个共同出现的片段。
实验部分
从结果上看,NPM在zero-shot设置下比其他基线模型的性能都要强。
在参数化模型中,RoBERTa取得了最好的性能,出人意料地超过了包括GPT-3等在内的模型,可能是因为纯编码器模型的双向性起到了至关重要的作用,这也表明,因果语言模型可能不是一个合适的分类选择。
kNN-LM方法在参数模型中加入了非参数成分,其性能优于其他所有基线。尽管如此,仅仅依靠检索(kNN)在GPT-2中的表现很差,这表明仅在推理时使用kNN是有限的。
NPM SINGLE和NPM的表现都明显优于所有基线,在所有数据集上都取得了一致的优越性能。这表明,即使对于不明确需要外部知识的任务,非参数模型也非常有竞争力。
定性分析时采用RoBERTa和NPM在情感分析任务时的预测结果。第一个例子用便宜表示不贵,第二个例子用便宜表示质量很差。
RoBERTa对这两个例子的预测都是正向的,而NPM通过检索在与输入相同的语境中使用cheap的语境,做出了正确的预测。
还可以发现,NPM输出的表征能带来更好的词义消歧。例如,RoBERTa在cheap(廉价)和cheap(质量很差)之间分配了一个很高的相似性分数。
另一方面,NPM成功地在cheap和cheap之间分配了一个低的相似性分数,也表明该非参数训练与对比性目标是有效的,可以更好地提高表征学习,而kNN推理这类没有训练的算法是完全做不到的。
参考资料:https://arxiv.org/abs/2212.01349
文中关于GPT-3,语言模型,NPM的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 美国银行称人工智能正迈入“iPhone 时刻”,未来七年为世界经济带来 15.7 万亿美元的增长

- 下一篇
- IDC预计今年人工智能收入将接近4500亿美元
-
- 科技周边 · 人工智能 | 8小时前 |
- 阿里开源实时数字人对话—OpenAvatarChat
- 419浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 宝马加速推出全球限量M车型,瞄准中日市场
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | 新能源汽车 国产化 第三代半导体 SiC车规级功率半导体 扬杰科技
- 扬杰科技10亿元SiC车规级模块封装项目开工
- 296浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 保时捷911Turbo测试车曝光混动马力或破700匹
- 483浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | QD-OLED 量子点技术 QD-LCD MiniLED MacBookPro
- 2024年量子点薄膜和扩散板收入猛增42%
- 197浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 沃尔沃电动卡车销量破5000,特斯拉Semi量产难
- 334浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 |
- 奇瑞2025年Q1出口突破25万辆,中国车企榜首
- 357浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 |
- 加州大学与Adobe推出多模态融合新框架X-Fusion
- 202浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 12次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 12次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 12次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 17次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 29次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览