当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

来源：51CTO.COM 2024-05-23 18:27:23 0浏览收藏

一分耕耘，一分收获！既然都打开这篇《GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4》，就坚持看下去，学下去吧！本文主要会给大家讲到等等知识点，如果大家对本文有好的建议或者看到有不足之处，非常欢迎大家积极提出！在后续文章我会继续更新科技周边相关的内容，希望对大家都有所帮助！

GPT-4可以通过图灵测试吗？

当一个足以强大的模型诞生之后，人们往往会用图灵测试去衡量这一LLM的智能程度。

最近，来自UCSD的认知科学系研究人员发现：

在图灵测试中，人们根本无法区分GPT-4与人类！

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

论文地址：https://arxiv.org/pdf/2405.08007

在图灵测试中，GPT-4有54%的情况下，被判定为人类。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

实验结果更是表明，这是首次有系统在「交互式」双人图灵测试中，被实证通过测试。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

研究者Cameron R.Jones招募了500名志愿者，他们被分为5个角色：4个评估员，分别是GPT-4、GPT-3.5、ELIZA和人类，另一个角色就「扮演」人类自己，藏在屏幕另一端，等待着评估员的发现。

以下是节选的游戏，你能看出哪个对话框是人类吗？

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

图 1：人类审讯者（绿色）与证人（灰色）之间的部分对话

其实，这四段对话中，有一段是与人类证人的对话，其余都是与人工智能的对话。

首次开启受控「图灵测试」

过去74年里，人们进行了许多图灵测试的尝试，但很少进行过受控实验。

著名的Loebner奖是一项年度竞赛，然而从1990年首次举办一直到2020年，没有一个系统通过测试。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

最近的一项大规模研究发现，人类在2分钟的在线对话中，识别一系列LLM准确率达到 60%。

迄今为止，还没有任何机器通过测试的「受控」实验演示。

为了测试人们是否有可能识破当前AI系统的欺骗行为，研究人员使用GPT-4进行了一次随机控制的双人图灵测试。

测试要求很简单，即人类参与者与人类、人工智能开启5分钟对话，并判断对话者是否是人类。

正如开篇所述，研究人员一共测评了3个模型——GPT-4、GPT-3.5，以及ELIZA。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

针对前两个LLM，研究者通过改编GPT-4和GPT-3.5探索性研究中表现最佳的提示，来指示大模型如何去响应消息。

研究人员称，解释图灵测试的一个核心挑战是，系统表现出色可能源于两种原因：

- 一是出色地模仿人类

- 二是评判者过于轻信

后一种情况，常被称为ELIZA效应，即参与者甚至会将简单的系统也人性化。

ELIZA系统对于每个人来说，再熟悉不过了。

它是20世纪60年代的一款基于规则的简单聊天机器人，但用户发现自己也会将人类特征归因于它。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

因此，在实验中，研究人员将ELIZA作为基线，一方面是为了从经验上量化ELIZA效应，另一方面也是为了在实验中进行操作检查。

那么，这项图灵测试的结果，具体如何呢？

GPT-4通过率54%

首先看一个重要的指标：通过率。

研究者将通过率定义为在游戏中，评估对象被评估者判定为人类的比例。

GPT-4的通过率为54%，超过了GPT-3.5（50%）和ELIZA基线（22%），但低于人类被试者（67%）。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

评估对象通过率（左）和评估者信任度（右）。右图每个点代表一场游戏

这个结果其实并不令人意外，与研究初始阶段的设想基本相符合。

在试验之前，研究者就做出了几个假设：首先，假设人类在检测GPT-4方面的能力不会超过偶然性（50%）。

为了验证这一点，研究者拟合了一个逻辑回归模型来预测只有截距的通过率。

截距与0（z=0.14, p=0.482）没有明显差距，这表明GPT-4的通过率可以约等于50%。贝叶斯模型预测GPT-4截距的95%可信区间为-0.24-0.55（相当于44%-63%的通过率）。

这意味着，人类在面对GPT-4时，成功分辨的概率跟抛硬币差不多！

结果还证实了研究人员的第二和第三个假设：人类的通过率明显高于GPT-4的通过率（z=2.42，p=0.017），而GPT-4的通过率高于ELIZA的通过率（z=4.11，p<0.001）。

然而，与研究者的试验设想不一致的是：GPT-4和GPT-3.5的表现几乎差不多（z=0.497，p=0.619）。

在「伪装人类」这一块，打了个平手。

同样出人意料的是，那些自称更了解LLM工作原理的参与者并没有更成功地识别出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者发现年龄对询问者的准确性有负面影响（z = -2.24，p = 0.025），但其他人口统计学变量（包括性别、教育水平和与聊天机器人互动的频率）则没有显著影响。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

为什么会是这样的结果？让我们来分析一下背后的原因。

为了深入了解到底是什么在影响评估者的决策，我们对评估者使用的策略和他们为决策提供的理由进行了分类。

36%的评估者会与评估对象闲聊，询问一些个人细节或日常活动。

第二类和第三类最常用的策略是社交与情感（25%）——例如，询问评估对象的观点和经历，观察他们是否具备幽默感。

还有人侧重考察知识与推理（13%），包括有关数学、逻辑和常识的问题。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

询问策略（左）和平均准确率（右）

为了对比每种策略的有效性，研究者计算了使用这些策略的平均准确率。

当评估对象问及对方有关人类经历（75%）、逻辑和数学（78%）或直接「指控」对方是人工智能（80%）时，通常会距离「正确答案」更近。

在游戏中，人工智能之所以会「露出马脚」，通常是因为评估者认为他们似乎在强迫自己扮演角色，要么过于随意，要么则缺乏个性。

而ELIZA 很容易「暴露」，主要是因为反应不自然和缺乏语境意识。

可以看出，无论是从参与游戏的志愿者所使用的策略还是决策理由来看，他们都更注重语言风格和社会情感因素，而不是更传统的智力范畴（知识和推理）。

这似乎反映出志愿者们的一个潜在假设——社会智能才是AI最无法模仿的人类特征。

图灵测试，过了

如何判断系统何时通过了图灵测试？

图灵在1950年的论文中预测，到本世纪末， AI系统将能够很好地玩模仿游戏，以至于审查员在5分钟的交流后，做出正确识别的机会不会超过70%。

这一结论，导致了AI的通过率是否能够达到30%，成为许多研究者的讨论目标。

然而，这个基准似乎是任意的，并且不清楚图灵是否将其作为成功的定义。

其实，50%的基线更加合理，因为它更能证明人类审查者，在识别AI方面并不比偶然性更强。

这一定义，与发现用户是否可以在在线互动中，可靠地识别其他人类这一目标尤为相关。

在研究者的预公开的分析中，通过使用ELIZA基线作为操作检查来解决这个问题。

只有当分析表明ELIZA的通过率低于概率，而GPT-4的通过率不低于概率的情况下，才能判定模型通过了测试。

而根据这一定义，GPT-4显然通过了这一版本的图灵测试。

此外，参与者的置信度得分和决策依据，都表明他们并非随意猜测：GPT-4是人类的平均置信度为73%（见图 2）。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

网友讨论

有网友表示，如果我们要将图灵测试等同于智力，图灵测试就不是一个好的测试。然而，AI几乎始终可以「欺骗」人类的事实有点令人担忧。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

还有人称，自己对这种测试表示怀疑。因为GPT-4的表现会超过大多数人，所以很容易区分谁是人类，谁是人工智能。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

研究者对此表示，这确实是我们遇到的一个问题。比如，GPT-4的知识储备「太丰富」或者掌握的语言太多。我们明确提示该模型避免这种情况，这在一定程度上是有效的。

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。

测试 GPT-4

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

自动驾驶场景中的长尾问题怎么解决？

自动驾驶场景中的长尾问题怎么解决？

上一篇: 自动驾驶场景中的长尾问题怎么解决？

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

下一篇: Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

查看更多

最新文章

科技周边 · 人工智能 | 5小时前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

2502次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

2310次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2256次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

2454次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

2432次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码