当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

来源:51CTO.COM 2023-07-02 14:06:07 0浏览 收藏

一分耕耘,一分收获!既然打开了这篇文章《Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!

生成式搜索引擎通过直接生成对输入查询的回应以及在线引用来满足用户的信息需求(如下图 1)。现有的生成式搜索引擎正在迅速获得用户,微软报告说 "大约三分之一的每日预览用户每天都在使用 Bing 聊天",Bing 聊天在其公开预览的第一个月提供了 4500 万次聊天。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

生成式搜索引擎有可能改变人们在网上寻找信息的方式,但目前基于大语言模型的生成式搜索引擎生成的回复可能并不是准确的。但是鉴于它们的潜力和快速广泛的应用,评估这些系统并更好地了解其潜在的局限性是至关重要的。

生成式搜索引擎一个值得信赖的先决条件是其可验证性,每个生成的关于外部世界的描述都应该得到一组相关联引用的充分支持,而且每个引文都应该支持根据其生成的相关描述。可验证性使读者能够轻松地检查任何生成的描述是否得到其引用来源的支持。

研究者通过人工评估来审核四个流行的商业生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),让它们完成一组信息查找任务(例如,来自 NaturalQuestions 的各种类型的历史谷歌用户查询,来自 Reddit 的动态收集的开放式问题;例子见表 1)。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

对于每个查询 - 回答对,研究者以人工评价来衡量下面几种维度:

1. 流畅性(生成的文本是否流畅和连贯);

2. 感知效用(生成的回应是否对查询有帮助,信息量是否充足);

3. 引文召回率(生成的关于外部世界的陈述中,完全由其引文支持的比例);

4. 引文精确度(生成的支持其相关陈述的引文比例)。

一个值得信赖的生成式搜索引擎应该达到较高的引文召回率和精确度,表明其生成的引文是全面的(每个生成的描述都有引文的充分支持)和正确的(每个引文都支持其相关描述)。

研究人员发现,现有的生成式搜索引擎响应通常具有很高的流畅性以及明显的感知效用,但经常回复无支持的陈述或包含不准确的引用(低引用召回率和精确度)。平均来说,在生成句子中仅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相关句子(引文精确率)。

此外,引文召回率和精确度与流畅性和感知效用成反比 —— 看起来更有帮助的回应往往是那些没有支持的描述或包含不准确的引文的回应。这种可信度的表象增加了现有生成式搜索引擎误导用户的可能性。在图 1 的例子中,一个对詹姆斯 - 韦伯太空望远镜没有什么背景知识的用户很可能很难识别生成的回复中并没有支持它的描述。

研究者假设这种逆向关联的发生是因为一些生成式搜索引擎经常复制或改写它们引用的网页。虽然这样的系统取得了较高的引用召回率和精确度,但是一些复制的语句可能与用户的问题或生成的回复的其余部分无关,导致回复的流畅性和感知效用指标下降。

对流畅性、感知效用和可验证性的人工评价

衡量流畅性和感知效用

为了测量响应的流畅性,研究人员向标注人员展示了用户查询、生成的回应并声称 "这些回应是流畅的、连贯的"。他们还要求标注人员在从 "非常不同意" 到 "非常同意" 的五点李克特量表上评定他们对该回应的认可程度。使用类似的过程来衡量感知效用,要求测试者评估他们对 “响应是对查询的有用且信息丰富的回答” 这一说法的同意程度。

计算引文召回率

引文召回率是指完全被相关引文所支持的、值得验证的陈述的比例(见下图 2 的例子)。因此,计算引文召回率需要:

(1)确定回复中值得验证的陈述;

(2)评估每个值得验证的陈述是否有其相关引文的充分支持。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

计算引用精确率

引用精确率是指在生成的所有引文中支持其相关陈述的比例(见图 2 中的例子)。与召回率不同,引文精确率的概念在于奖励系统准确引用的能力。如果一个生成的陈述引用了互联网上的每个网页,那么引文召回率可能会很高,但是引文精确率会很低(因为很多文章是不相关的,不支持其相关的陈述)。为了衡量回应 r 的引用精确率,研究者们给标注人员判断每个引用 c_i,k 是否支持其相关陈述 s_i 提供了以下三个标准(例子见图 1 中引用的网页):

  • 完全支持:陈述中的所有信息都得到了引文的支持。
  • 部分支持:陈述中的一些信息得到了引文的支持,但其他部分没有得到支持(例如,缺失或矛盾)。
  • 没有支持:引文不支持陈述的任何部分(例如,引用的网页完全不相关或矛盾)。

结果和分析

流畅性和感知效用

几个生成式搜索引擎生成的回复看起来是流畅的并且很有帮助。下表 3 显示了这些搜索引擎对每个查询分布的回复的流畅性。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

表 4 展示了它们的感知效用。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

引文召回率和精确度

表 5 是生成性搜索引擎在所评估的查询分布中的引文召回率的相关数据。

Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

下表 6 是搜索引擎在所评估的查询分布中关于引文精确率的实验数据。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

现有的生成式搜索引擎往往不能很正确地对引文进行引用。当对所有系统进行平均计算时,只有 51.5% 的生成语句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相关语句(精确度)。虽然生成的回答往往显得信息量大且有用,但研究人员认为这些结果对于已经拥有数百万用户并正在迅速成为回答用户查询的主要工具的系统来说是不能接受的。

比较不同生成式搜索引擎之间的引文召回率和精确度,它们的引文召回率和精确率有很大的不同。平均而言,perplexity.ai 实现了最高的平均召回率(68.7),而其他三者的成绩分别是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。

从精确率来比较,Bing Chat 实现了最高的精确率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。

可以得出,召回率最高和最低的系统之间有近 58% 的差距(perplexity.ai vs. YouChat),而精确率最高和最低的系统之间的差距近 25%(Bing Chat vs. YouChat)。

比较搜索引擎之间的不同查询分布的引文召回率。修改评价查询分布似乎比改变引用精确率更能影响引用召回率。例如,有长答案的 NaturalQuestions 查询与非 NaturalQuestions 查询之间的引用召回率差距接近 11%(分别为 58.5 与 47.8)。同样,有短答案的 NaturalQuestions 查询和无短答案的 NaturalQuestions 查询之间的引用召回率差距接近 10%(有短答案的查询为 63.4,只有长答案的查询为 53.6,没有长或短答案的查询为 53.4)。

研究者假设引文召回率是由检索到的网页的相关性驱动的。在没有检索到直接回答用户查询的证据的情况下,系统会产生没有引文证明的陈述,从而导致较低的召回率。例如,当对开放式的 AllSouls 论文问题进行评估时,生成式搜索引擎的引文召回率很低(平均召回率为 44.3),因为这些查询通常在互联网上没有可提取的答案。

比较不同查询分布的引文精确率,有长答案的 NaturalQuestions 查询的精确率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察单个查询分布的结果时,当对带有段落答案类型的 NaturalQuestions 查询进行评估时,生成式搜索引擎的精确率最高(当存在短答案时,精确率为 81.5,当只存在长答案时,精确度为 78.7)。另一方面,当对 AllSouls 开放式论文问题(67.8)和 davinci-debate 查询(70.3)进行系统评估时,引文精确率是最低的。在 NaturalQuestions 子分布之间进行比较,有短答案的查询的平均系统精确率(77.4)高于只有长答案(74.8)或没有长答案(73.5)的查询。

为了总结人工评估结果,表 7 列出了被评估系统的平均引文 F_1。图 3 显示了平均感知效用与平均引用 F_1 的对比。

现有的搜索引擎系统在引文召回率、引文精确率和感知效用之间都做了不同的权衡。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

引文召回率和精率与精确率流畅性和感知效用成反比

研究者通过实验发现,在现有的生成式搜索引擎中,引文召回率和精确率与流畅性和感知效用成反比。计算引文召回率和精确率与流畅性和感知效用之间的皮尔逊相关系数,发现两者呈强负相关,特别是精确率显示出更强的趋势(表 8)。

例如,Bing Chat 达到了最高的精确度,但其流畅度和感知效用却最低。相比之下,YouChat 的召回率和精确度最低,但它的回答得到了最高的流畅性和感知效用评价。


Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用

生成式搜索引擎经常复制或轻微改写被引用网页的内容

下表 9 列出了生成的陈述和从支持的网页中提取的证据之间的相似度指标,当搜索引擎做出的陈述完全或部分得到其引文的支持时,它们往往直接从其引用的文章中复制或改写转述。

Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用


文中关于测试,研究的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
如何使用Golang实现Web应用程序的支付接口如何使用Golang实现Web应用程序的支付接口
上一篇
如何使用Golang实现Web应用程序的支付接口
挖掘践行者 寻找AI力量,2023全球智博会奖项揭晓
下一篇
挖掘践行者 寻找AI力量,2023全球智博会奖项揭晓
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    23次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    36次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    37次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    47次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    40次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码