文字顺序不影响GPT-4阅读理解,别的大模型都不行
哈喽!今天心血来潮给大家带来了《文字顺序不影响GPT-4阅读理解,别的大模型都不行》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!
研表究明,汉字序顺并不定一影阅响读(对于英文来说,则是每一个单词中的字母顺序)。
现在,日本东京大学的一项实验发现,这个“定理”居然也适合GPT-4。
比如面对这样一段“鬼画符”,几乎里面每一个单词的每一个字母都被打乱:
在2023年,梅特斯队将于8月31日在洛杉矶的高地球场举行首场比赛
但GPT-4居然完美地恢复出了原始句子(红框部分):
原来是一个叫做Jon Rahm的人赢得了2023年美国大师赛(高尔夫)的故事。
并且,如果你直接就这段乱码对GPT-4进行提问,它也能先理解再给出正确答案,一点儿也不影响阅读:
对此,研究人员感到非常吃惊:
按理说乱码单词会对模型的tokenization处理造成严重干扰,GPT-4居然和人类一样不受影响,这有点违反直觉啊。
值得一提的是,这项实验也测试了其他大模型,但它们全都挑战失败——有且仅有GPT-4成功。
需要重写的内容是:具体怎么说?
文字顺序不影响GPT-4阅读
为了检验大型模型对文字错乱干扰的抗性能力,作者创建了一个专门的测试基准:Scrambled Bench
它共包含两类任务:
一是加扰句子恢复(ScrRec),即测试大模型恢复乱序句子的能力。
它的量化指标包括一个叫做恢复率(RR)的东西,可以简单理解为大模型恢复单词的比例。
二是加扰问答(ScrQA),测量大模型在上下文材料中的单词被打乱时正确理解并回答问题的能力。
由于每个模型本身的能力并不相同,我们不好直接用准确性来评估这一项任务,因此作者在此采用了一个叫做相对性能增益(RPG)的量化指标。
具体测试素材则选自三个数据库:
需要被改写的内容是:一个是RealtimeQA,每周发布一些当前LLM不太可能知道的最新消息;
第二个是DREAM(Sun et al.,2019),一个基于对话的多项选择阅读综合数据集;
AQuARAT是一个数学问题数据集,需要通过多步推理来解决
对于每个数据集,作者从中挑出题目,并进行不同程度和类型的干扰,包括:
1、随机加扰(RS),即对每一个句子,随机选择一定比例(20%、50%、100%)的单词,对这些单词中的所有字母进行打乱(数字不变)。
2、保持每个单词的第一个字母不变,剩下的随意排列(KF)。
3、保持每个单词的首字母和最后一个字母不变,剩下的随机打乱(KFL)。
参与测试的模型有很多,文章正文主要报告了以下几个:
text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。
首先来看不同干扰类型的影响。
请参考下图:
在KFL设置中(即首尾字母不变),不管是加扰句子恢复还是加扰问答任务,模型之间的性能差距都不大。
然而,随着干扰难度越来越高(变为KF和RS后),模型的性能都迎来显著下降——除了GPT-4。
具体而言,在加扰句子恢复(ScrRec)任务中,GPT-4的恢复率始终高于95%,在加扰问答(ScrQA)任务中,GPT-4的相对准确性也都始终维在85%-90%左右。
与此相比,其他模型的表现都不及20%
其次是不同加扰率的影响。
如下图所示,可以看到,在加扰句子恢复(ScrRec)任务中,随着一个句子中被干扰的单词数量越来越多,直至100%之后,只有GPT-3.5-turbo和GPT-4的性能没有显著变化,当然,GPT-4还是比GPT-3.5优先了很大一截。
而在加扰问答(ScrQA)任务中,随着句子中被打乱的单词数量越来越多,所有模型性能都出现了都显著下降,且差距越来越大。
然而,在这些模型中,GPT-4保持着遥遥领先,其表现达到了87.8%,而且下降的幅度也是最小的
所以简单总结来说就是:
大多数模型都可以处理一定比例的干扰文本,但到极端程度时(比如单词全部打乱),就只有GPT-4表现最好,只有GPT-4面对完全混乱的词序,几乎不怎么被影响。
GPT-4还擅长分词
在文章结尾处,作者强调:
除了打乱单词字母顺序之外,还可以研究插入字母、替换字母等情况的影响。
唯一的问题是,由于GPT-4为闭源,大家也不好调查为什么GPT-4可以不被词序影响。
有网友发现,除了本文所证明的情况,GPT-4也非常擅长将下面这一段完全连起来的英文:
UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA
NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV
EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN
OWITHOLDSTHEKEYSTOUNTOLDPOWER
正确分隔开来:
猎户座的腰带之下,宁静之海与黄昏的边缘相遇之处,隐藏着一宝藏智慧,被许多人遗忘,但被内行人渴望。它拥有无尽力量的钥匙
按理来说,这种分词操作是一件很麻烦的事儿,通常需要动态编程等操作。
GPT-4表现出来的能力再次让这位网友感到惊讶。
他还把这段内容放进了OpenA官方的tokenizer工具,发现GPT-4看到的token其实是这样的:
UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA
除了“UNDER”、“SEA”和“OF”之外,几乎所有的token都看起来“毫无逻辑”,这进一步增加了人们的困惑
大家对此有何看法?
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

- 上一篇
- 原标题:联想小新 Pro AI 超能本 2024 官宣:首批搭载第 1 代酷睿 UItra 联想宣布2024年首批小新 Pro AI 超能本搭载第一代酷睿 UItra处理器

- 下一篇
- 智能物联网平台的AIOT架构
-
- 科技周边 · 人工智能 | 7小时前 |
- Shadow开源AI助手,实时任务状态更新详解
- 455浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- AI工具批量生成内容教程:高效创作指南
- 322浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 宁德时代港股遭空头青睐,2025Q2财报将公布
- 213浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- AI工具高手进阶课程全攻略
- 280浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 深蓝L072026款上市,华为智驾全系标配
- 114浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 即梦AI多语言导出与字幕翻译教程
- 240浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- PerplexityAI如何验证信息真实度
- 330浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 豆包AI爆款逻辑,三步打造百万职场图
- 211浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 豆包AI写WebSocket教程详解
- 113浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- PerplexityAI如何辨别新闻真伪
- 230浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 225次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 223次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 221次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 227次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 247次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览