GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
一分耕耘,一分收获!既然都打开这篇《GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4》,就坚持看下去,学下去吧!本文主要会给大家讲到等等知识点,如果大家对本文有好的建议或者看到有不足之处,非常欢迎大家积极提出!在后续文章我会继续更新科技周边相关的内容,希望对大家都有所帮助!
GPT-4可以通过图灵测试吗?
当一个足以强大的模型诞生之后,人们往往会用图灵测试去衡量这一LLM的智能程度。
最近,来自UCSD的认知科学系研究人员发现:
在图灵测试中,人们根本无法区分GPT-4与人类!
论文地址:https://arxiv.org/pdf/2405.08007
在图灵测试中,GPT-4有54%的情况下,被判定为人类。
实验结果更是表明,这是首次有系统在「交互式」双人图灵测试中,被实证通过测试。
研究者Cameron R.Jones招募了500名志愿者,他们被分为5个角色:4个评估员,分别是GPT-4、GPT-3.5、ELIZA和人类,另一个角色就「扮演」人类自己,藏在屏幕另一端,等待着评估员的发现。
以下是节选的游戏,你能看出哪个对话框是人类吗?
图 1:人类审讯者(绿色)与证人(灰色)之间的部分对话
其实,这四段对话中,有一段是与人类证人的对话,其余都是与人工智能的对话。
首次开启受控「图灵测试」
过去74年里,人们进行了许多图灵测试的尝试,但很少进行过受控实验。
著名的Loebner奖是一项年度竞赛,然而从1990年首次举办一直到2020年,没有一个系统通过测试。
最近的一项大规模研究发现,人类在2分钟的在线对话中,识别一系列LLM准确率达到 60%。
迄今为止,还没有任何机器通过测试的「受控」实验演示。
为了测试人们是否有可能识破当前AI系统的欺骗行为,研究人员使用GPT-4进行了一次随机控制的双人图灵测试。
测试要求很简单,即人类参与者与人类、人工智能开启5分钟对话,并判断对话者是否是人类。
正如开篇所述,研究人员一共测评了3个模型——GPT-4、GPT-3.5,以及ELIZA。
针对前两个LLM, 研究者通过改编GPT-4和GPT-3.5探索性研究中表现最佳的提示,来指示大模型如何去响应消息。
研究人员称,解释图灵测试的一个核心挑战是,系统表现出色可能源于两种原因:
- 一是出色地模仿人类
- 二是评判者过于轻信
后一种情况,常被称为ELIZA效应,即参与者甚至会将简单的系统也人性化。
ELIZA系统对于每个人来说,再熟悉不过了。
它是20世纪60年代的一款基于规则的简单聊天机器人,但用户发现自己也会将人类特征归因于它。
因此,在实验中,研究人员将ELIZA作为基线,一方面是为了从经验上量化ELIZA效应,另一方面也是为了在实验中进行操作检查。
那么,这项图灵测试的结果,具体如何呢?
GPT-4通过率54%
首先看一个重要的指标:通过率。
研究者将通过率定义为在游戏中,评估对象被评估者判定为人类的比例。
GPT-4的通过率为54%,超过了GPT-3.5(50%)和ELIZA基线(22%),但低于人类被试者(67%)。
评估对象通过率(左)和评估者信任度(右)。右图每个点代表一场游戏
这个结果其实并不令人意外,与研究初始阶段的设想基本相符合。
在试验之前,研究者就做出了几个假设:首先,假设人类在检测GPT-4方面的能力不会超过偶然性(50%)。
为了验证这一点,研究者拟合了一个逻辑回归模型来预测只有截距的通过率。
截距与0(z=0.14, p=0.482)没有明显差距,这表明GPT-4的通过率可以约等于50%。贝叶斯模型预测GPT-4截距的95%可信区间为-0.24-0.55(相当于44%-63%的通过率)。
这意味着,人类在面对GPT-4时,成功分辨的概率跟抛硬币差不多!
结果还证实了研究人员的第二和第三个假设:人类的通过率明显高于GPT-4的通过率(z=2.42,p=0.017),而GPT-4的通过率高于ELIZA的通过率(z=4.11,p<0.001)。
然而,与研究者的试验设想不一致的是:GPT-4和GPT-3.5的表现几乎差不多(z=0.497,p=0.619)。
在「伪装人类」这一块,打了个平手。
同样出人意料的是,那些自称更了解LLM工作原理的参与者并没有更成功地识别出LLM(z = -0.023,p = 0.869)。
在探索性分析中,研究者发现年龄对询问者的准确性有负面影响(z = -2.24,p = 0.025),但其他人口统计学变量(包括性别、教育水平和与聊天机器人互动的频率)则没有显著影响。
为什么会是这样的结果?让我们来分析一下背后的原因。
为了深入了解到底是什么在影响评估者的决策,我们对评估者使用的策略和他们为决策提供的理由进行了分类。
36%的评估者会与评估对象闲聊,询问一些个人细节或日常活动。
第二类和第三类最常用的策略是社交与情感(25%)——例如,询问评估对象的观点和经历,观察他们是否具备幽默感。
还有人侧重考察知识与推理(13%),包括有关数学、逻辑和常识的问题。
询问策略(左)和平均准确率(右)
为了对比每种策略的有效性,研究者计算了使用这些策略的平均准确率。
当评估对象问及对方有关人类经历(75%)、逻辑和数学(78%)或直接「指控」对方是人工智能(80%)时,通常会距离「正确答案」更近。
在游戏中,人工智能之所以会「露出马脚」,通常是因为评估者认为他们似乎在强迫自己扮演角色,要么过于随意,要么则缺乏个性。
而ELIZA 很容易「暴露」,主要是因为反应不自然和缺乏语境意识。
可以看出,无论是从参与游戏的志愿者所使用的策略还是决策理由来看,他们都更注重语言风格和社会情感因素,而不是更传统的智力范畴(知识和推理)。
这似乎反映出志愿者们的一个潜在假设——社会智能才是AI最无法模仿的人类特征。
图灵测试,过了
如何判断系统何时通过了图灵测试?
图灵在1950年的论文中预测,到本世纪末, AI系统将能够很好地玩模仿游戏,以至于审查员在5分钟的交流后,做出正确识别的机会不会超过70%。
这一结论,导致了AI的通过率是否能够达到30%,成为许多研究者的讨论目标。
然而,这个基准似乎是任意的,并且不清楚图灵是否将其作为成功的定义。
其实,50%的基线更加合理,因为它更能证明人类审查者,在识别AI方面并不比偶然性更强。
这一定义,与发现用户是否可以在在线互动中,可靠地识别其他人类这一目标尤为相关。
在研究者的预公开的分析中,通过使用ELIZA基线作为操作检查来解决这个问题。
只有当分析表明ELIZA的通过率低于概率,而GPT-4的通过率不低于概率的情况下,才能判定模型通过了测试。
而根据这一定义,GPT-4显然通过了这一版本的图灵测试。
此外,参与者的置信度得分和决策依据,都表明他们并非随意猜测:GPT-4是人类的平均置信度为73%(见图 2)。
网友讨论
有网友表示,如果我们要将图灵测试等同于智力,图灵测试就不是一个好的测试。然而,AI几乎始终可以「欺骗」人类的事实有点令人担忧。
还有人称,自己对这种测试表示怀疑。因为GPT-4的表现会超过大多数人,所以很容易区分谁是人类,谁是人工智能。
研究者对此表示,这确实是我们遇到的一个问题。比如,GPT-4的知识储备「太丰富」或者掌握的语言太多。我们明确提示该模型避免这种情况,这在一定程度上是有效的。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

- 上一篇
- 自动驾驶场景中的长尾问题怎么解决?

- 下一篇
- Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star
-
- 科技周边 · 人工智能 | 10小时前 |
- 小米SU7订单18万未交付,月产能暴增6倍
- 361浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 | iPhone17Pro 天蓝色 M4MacBookAir
- iPhone17Pro/ProMax弃钛金属,拥抱天蓝色
- 272浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- 问界M8快报:MAX+版最火,BAL车主热捧
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 15小时前 |
- 港大与Adobe联手推出PixelFlow图像生成模型
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 | 摩尔线程 招聘诈骗 @mthreads.com 官方客服 法律责任
- 摩尔线程重磅声明发布
- 406浏览 收藏
-
- 科技周边 · 人工智能 | 20小时前 |
- 玛莎拉蒂GT2Stradale国内首秀售414.5万
- 226浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 谱乐AI
- 谱乐AI是由青岛艾夫斯科技有限公司开发的AI音乐生成工具,采用Suno和Udio模型,支持多种音乐风格的创作。访问https://yourmusic.fun/,体验智能作曲与编曲,个性化定制音乐,提升创作效率。
- 2次使用
-
- Vozo AI
- 探索Vozo AI,一款功能强大的在线AI视频换脸工具,支持跨性别、年龄和肤色换脸,适用于广告本地化、电影制作和创意内容创作,提升您的视频制作效率和效果。
- 2次使用
-
- AIGAZOU-AI图像生成
- AIGAZOU是一款先进的免费AI图像生成工具,无需登录即可使用,支持中文提示词,生成高清图像。适用于设计、内容创作、商业和艺术领域,提供自动提示词、专家模式等多种功能。
- 2次使用
-
- Raphael AI
- 探索Raphael AI,一款由Flux.1 Dev支持的免费AI图像生成器,无需登录即可无限生成高质量图像。支持多种风格,快速生成,保护隐私,适用于艺术创作、商业设计等多种场景。
- 2次使用
-
- Canva可画AI生图
- Canva可画AI生图利用先进AI技术,根据用户输入的文字描述生成高质量图片和插画。适用于设计师、创业者、自由职业者和市场营销人员,提供便捷、高效、多样化的视觉素材生成服务,满足不同需求。
- 1次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览