当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 文字顺序不影响GPT-4阅读理解,别的大模型都不行

文字顺序不影响GPT-4阅读理解,别的大模型都不行

来源:51CTO.COM 2023-12-04 15:18:55 0浏览 收藏

哈喽!今天心血来潮给大家带来了《文字顺序不影响GPT-4阅读理解,别的大模型都不行》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!

研表究明,汉字序顺并不定一影阅响读(对于英文来说,则是每一个单词中的字母顺序)

现在,日本东京大学的一项实验发现,这个“定理”居然也适合GPT-4。

比如面对这样一段“鬼画符”,几乎里面每一个单词的每一个字母都被打乱

在2023年,梅特斯队将于8月31日在洛杉矶的高地球场举行首场比赛

但GPT-4居然完美地恢复出了原始句子(红框部分)

文字顺序不影响GPT-4阅读理解,别的大模型都不行

原来是一个叫做Jon Rahm的人赢得了2023年美国大师赛(高尔夫)的故事。 

并且,如果你直接就这段乱码对GPT-4进行提问,它也能先理解再给出正确答案,一点儿也不影响阅读:

文字顺序不影响GPT-4阅读理解,别的大模型都不行

对此,研究人员感到非常吃惊

按理说乱码单词会对模型的tokenization处理造成严重干扰,GPT-4居然和人类一样不受影响,这有点违反直觉啊。

值得一提的是,这项实验也测试了其他大模型,但它们全都挑战失败——有且仅有GPT-4成功。

需要重写的内容是:具体怎么说?

文字顺序不影响GPT-4阅读

为了检验大型模型对文字错乱干扰的抗性能力,作者创建了一个专门的测试基准:Scrambled Bench

它共包含两类任务

一是加扰句子恢复(ScrRec),即测试大模型恢复乱序句子的能力。

它的量化指标包括一个叫做恢复率(RR)的东西,可以简单理解为大模型恢复单词的比例。

二是加扰问答(ScrQA),测量大模型在上下文材料中的单词被打乱时正确理解并回答问题的能力。

由于每个模型本身的能力并不相同,我们不好直接用准确性来评估这一项任务,因此作者在此采用了一个叫做相对性能增益(RPG)的量化指标。

具体测试素材则选自三个数据库

需要被改写的内容是:一个是RealtimeQA,每周发布一些当前LLM不太可能知道的最新消息;

第二个是DREAM(Sun et al.,2019),一个基于对话的多项选择阅读综合数据集;

AQuARAT是一个数学问题数据集,需要通过多步推理来解决

对于每个数据集,作者从中挑出题目,并进行不同程度和类型的干扰,包括:
1、随机加扰(RS),即对每一个句子,随机选择一定比例(20%、50%、100%)的单词,对这些单词中的所有字母进行打乱(数字不变)

2、保持每个单词的第一个字母不变,剩下的随意排列(KF)

3、保持每个单词的首字母和最后一个字母不变,剩下的随机打乱(KFL)

参与测试的模型有很多,文章正文主要报告了以下几个:

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。

首先来看不同干扰类型的影响。

请参考下图:

在KFL设置中(即首尾字母不变),不管是加扰句子恢复还是加扰问答任务,模型之间的性能差距都不大。

然而,随着干扰难度越来越高(变为KF和RS后),模型的性能都迎来显著下降——除了GPT-4。

具体而言,在加扰句子恢复(ScrRec)任务中,GPT-4的恢复率始终高于95%,在加扰问答(ScrQA)任务中,GPT-4的相对准确性也都始终维在85%-90%左右。

与此相比,其他模型的表现都不及20%

文字顺序不影响GPT-4阅读理解,别的大模型都不行

其次是不同加扰率的影响。

如下图所示,可以看到,在加扰句子恢复(ScrRec)任务中,随着一个句子中被干扰的单词数量越来越多,直至100%之后,只有GPT-3.5-turbo和GPT-4的性能没有显著变化,当然,GPT-4还是比GPT-3.5优先了很大一截。

文字顺序不影响GPT-4阅读理解,别的大模型都不行

而在加扰问答(ScrQA)任务中,随着句子中被打乱的单词数量越来越多,所有模型性能都出现了都显著下降,且差距越来越大。

然而,在这些模型中,GPT-4保持着遥遥领先,其表现达到了87.8%,而且下降的幅度也是最小的

所以简单总结来说就是:

大多数模型都可以处理一定比例的干扰文本,但到极端程度时(比如单词全部打乱),就只有GPT-4表现最好,只有GPT-4面对完全混乱的词序,几乎不怎么被影响。

GPT-4还擅长分词

在文章结尾处,作者强调:

除了打乱单词字母顺序之外,还可以研究插入字母、替换字母等情况的影响。

唯一的问题是,由于GPT-4为闭源,大家也不好调查为什么GPT-4可以不被词序影响。

有网友发现,除了本文所证明的情况,GPT-4也非常擅长将下面这一段完全连起来的英文:

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA
NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV
EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN
OWITHOLDSTHEKEYSTOUNTOLDPOWER

正确分隔开来:

猎户座的腰带之下,宁静之海与黄昏的边缘相遇之处,隐藏着一宝藏智慧,被许多人遗忘,但被内行人渴望。它拥有无尽力量的钥匙

按理来说,这种分词操作是一件很麻烦的事儿,通常需要动态编程等操作。

GPT-4表现出来的能力再次让这位网友感到惊讶。

他还把这段内容放进了OpenA官方的tokenizer工具,发现GPT-4看到的token其实是这样的:

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

除了“UNDER”、“SEA”和“OF”之外,几乎所有的token都看起来“毫无逻辑”,这进一步增加了人们的困惑

文字顺序不影响GPT-4阅读理解,别的大模型都不行

大家对此有何看法?

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
原标题:联想小新 Pro AI 超能本 2024 官宣:首批搭载第 1 代酷睿 UItra

联想宣布2024年首批小新 Pro AI 超能本搭载第一代酷睿 UItra处理器原标题:联想小新 Pro AI 超能本 2024 官宣:首批搭载第 1 代酷睿 UItra 联想宣布2024年首批小新 Pro AI 超能本搭载第一代酷睿 UItra处理器
上一篇
原标题:联想小新 Pro AI 超能本 2024 官宣:首批搭载第 1 代酷睿 UItra 联想宣布2024年首批小新 Pro AI 超能本搭载第一代酷睿 UItra处理器
智能物联网平台的AIOT架构
下一篇
智能物联网平台的AIOT架构
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 谱乐AI:青岛艾夫斯科技的多模型AI音乐生成工具
    谱乐AI
    谱乐AI是由青岛艾夫斯科技有限公司开发的AI音乐生成工具,采用Suno和Udio模型,支持多种音乐风格的创作。访问https://yourmusic.fun/,体验智能作曲与编曲,个性化定制音乐,提升创作效率。
    2次使用
  • Vozo AI:超真实AI视频换脸工具,提升创意内容制作
    Vozo AI
    探索Vozo AI,一款功能强大的在线AI视频换脸工具,支持跨性别、年龄和肤色换脸,适用于广告本地化、电影制作和创意内容创作,提升您的视频制作效率和效果。
    2次使用
  • AIGAZOU:免费AI图像生成工具,简洁高效,支持中文
    AIGAZOU-AI图像生成
    AIGAZOU是一款先进的免费AI图像生成工具,无需登录即可使用,支持中文提示词,生成高清图像。适用于设计、内容创作、商业和艺术领域,提供自动提示词、专家模式等多种功能。
    2次使用
  • Raphael AI:Flux.1 Dev支持的免费AI图像生成器
    Raphael AI
    探索Raphael AI,一款由Flux.1 Dev支持的免费AI图像生成器,无需登录即可无限生成高质量图像。支持多种风格,快速生成,保护隐私,适用于艺术创作、商业设计等多种场景。
    2次使用
  • Canva可画AI生图:智能图片生成新选择
    Canva可画AI生图
    Canva可画AI生图利用先进AI技术,根据用户输入的文字描述生成高质量图片和插画。适用于设计师、创业者、自由职业者和市场营销人员,提供便捷、高效、多样化的视觉素材生成服务,满足不同需求。
    1次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码