Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用
一分耕耘,一分收获!既然打开了这篇文章《Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!
生成式搜索引擎通过直接生成对输入查询的回应以及在线引用来满足用户的信息需求(如下图 1)。现有的生成式搜索引擎正在迅速获得用户,微软报告说 "大约三分之一的每日预览用户每天都在使用 Bing 聊天",Bing 聊天在其公开预览的第一个月提供了 4500 万次聊天。
生成式搜索引擎有可能改变人们在网上寻找信息的方式,但目前基于大语言模型的生成式搜索引擎生成的回复可能并不是准确的。但是鉴于它们的潜力和快速广泛的应用,评估这些系统并更好地了解其潜在的局限性是至关重要的。
生成式搜索引擎一个值得信赖的先决条件是其可验证性,每个生成的关于外部世界的描述都应该得到一组相关联引用的充分支持,而且每个引文都应该支持根据其生成的相关描述。可验证性使读者能够轻松地检查任何生成的描述是否得到其引用来源的支持。
研究者通过人工评估来审核四个流行的商业生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),让它们完成一组信息查找任务(例如,来自 NaturalQuestions 的各种类型的历史谷歌用户查询,来自 Reddit 的动态收集的开放式问题;例子见表 1)。
对于每个查询 - 回答对,研究者以人工评价来衡量下面几种维度:
1. 流畅性(生成的文本是否流畅和连贯);
2. 感知效用(生成的回应是否对查询有帮助,信息量是否充足);
3. 引文召回率(生成的关于外部世界的陈述中,完全由其引文支持的比例);
4. 引文精确度(生成的支持其相关陈述的引文比例)。
一个值得信赖的生成式搜索引擎应该达到较高的引文召回率和精确度,表明其生成的引文是全面的(每个生成的描述都有引文的充分支持)和正确的(每个引文都支持其相关描述)。
研究人员发现,现有的生成式搜索引擎响应通常具有很高的流畅性以及明显的感知效用,但经常回复无支持的陈述或包含不准确的引用(低引用召回率和精确度)。平均来说,在生成句子中仅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相关句子(引文精确率)。
此外,引文召回率和精确度与流畅性和感知效用成反比 —— 看起来更有帮助的回应往往是那些没有支持的描述或包含不准确的引文的回应。这种可信度的表象增加了现有生成式搜索引擎误导用户的可能性。在图 1 的例子中,一个对詹姆斯 - 韦伯太空望远镜没有什么背景知识的用户很可能很难识别生成的回复中并没有支持它的描述。
研究者假设这种逆向关联的发生是因为一些生成式搜索引擎经常复制或改写它们引用的网页。虽然这样的系统取得了较高的引用召回率和精确度,但是一些复制的语句可能与用户的问题或生成的回复的其余部分无关,导致回复的流畅性和感知效用指标下降。
对流畅性、感知效用和可验证性的人工评价
衡量流畅性和感知效用
为了测量响应的流畅性,研究人员向标注人员展示了用户查询、生成的回应并声称 "这些回应是流畅的、连贯的"。他们还要求标注人员在从 "非常不同意" 到 "非常同意" 的五点李克特量表上评定他们对该回应的认可程度。使用类似的过程来衡量感知效用,要求测试者评估他们对 “响应是对查询的有用且信息丰富的回答” 这一说法的同意程度。
计算引文召回率
引文召回率是指完全被相关引文所支持的、值得验证的陈述的比例(见下图 2 的例子)。因此,计算引文召回率需要:
(1)确定回复中值得验证的陈述;
(2)评估每个值得验证的陈述是否有其相关引文的充分支持。
计算引用精确率
引用精确率是指在生成的所有引文中支持其相关陈述的比例(见图 2 中的例子)。与召回率不同,引文精确率的概念在于奖励系统准确引用的能力。如果一个生成的陈述引用了互联网上的每个网页,那么引文召回率可能会很高,但是引文精确率会很低(因为很多文章是不相关的,不支持其相关的陈述)。为了衡量回应 r 的引用精确率,研究者们给标注人员判断每个引用 c_i,k 是否支持其相关陈述 s_i 提供了以下三个标准(例子见图 1 中引用的网页):
- 完全支持:陈述中的所有信息都得到了引文的支持。
- 部分支持:陈述中的一些信息得到了引文的支持,但其他部分没有得到支持(例如,缺失或矛盾)。
- 没有支持:引文不支持陈述的任何部分(例如,引用的网页完全不相关或矛盾)。
结果和分析
流畅性和感知效用
几个生成式搜索引擎生成的回复看起来是流畅的并且很有帮助。下表 3 显示了这些搜索引擎对每个查询分布的回复的流畅性。
表 4 展示了它们的感知效用。
引文召回率和精确度
表 5 是生成性搜索引擎在所评估的查询分布中的引文召回率的相关数据。
下表 6 是搜索引擎在所评估的查询分布中关于引文精确率的实验数据。
现有的生成式搜索引擎往往不能很正确地对引文进行引用。当对所有系统进行平均计算时,只有 51.5% 的生成语句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相关语句(精确度)。虽然生成的回答往往显得信息量大且有用,但研究人员认为这些结果对于已经拥有数百万用户并正在迅速成为回答用户查询的主要工具的系统来说是不能接受的。
比较不同生成式搜索引擎之间的引文召回率和精确度,它们的引文召回率和精确率有很大的不同。平均而言,perplexity.ai 实现了最高的平均召回率(68.7),而其他三者的成绩分别是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。
从精确率来比较,Bing Chat 实现了最高的精确率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。
可以得出,召回率最高和最低的系统之间有近 58% 的差距(perplexity.ai vs. YouChat),而精确率最高和最低的系统之间的差距近 25%(Bing Chat vs. YouChat)。
比较搜索引擎之间的不同查询分布的引文召回率。修改评价查询分布似乎比改变引用精确率更能影响引用召回率。例如,有长答案的 NaturalQuestions 查询与非 NaturalQuestions 查询之间的引用召回率差距接近 11%(分别为 58.5 与 47.8)。同样,有短答案的 NaturalQuestions 查询和无短答案的 NaturalQuestions 查询之间的引用召回率差距接近 10%(有短答案的查询为 63.4,只有长答案的查询为 53.6,没有长或短答案的查询为 53.4)。
研究者假设引文召回率是由检索到的网页的相关性驱动的。在没有检索到直接回答用户查询的证据的情况下,系统会产生没有引文证明的陈述,从而导致较低的召回率。例如,当对开放式的 AllSouls 论文问题进行评估时,生成式搜索引擎的引文召回率很低(平均召回率为 44.3),因为这些查询通常在互联网上没有可提取的答案。
比较不同查询分布的引文精确率,有长答案的 NaturalQuestions 查询的精确率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察单个查询分布的结果时,当对带有段落答案类型的 NaturalQuestions 查询进行评估时,生成式搜索引擎的精确率最高(当存在短答案时,精确率为 81.5,当只存在长答案时,精确度为 78.7)。另一方面,当对 AllSouls 开放式论文问题(67.8)和 davinci-debate 查询(70.3)进行系统评估时,引文精确率是最低的。在 NaturalQuestions 子分布之间进行比较,有短答案的查询的平均系统精确率(77.4)高于只有长答案(74.8)或没有长答案(73.5)的查询。
为了总结人工评估结果,表 7 列出了被评估系统的平均引文 F_1。图 3 显示了平均感知效用与平均引用 F_1 的对比。
现有的搜索引擎系统在引文召回率、引文精确率和感知效用之间都做了不同的权衡。
引文召回率和精率与精确率流畅性和感知效用成反比
研究者通过实验发现,在现有的生成式搜索引擎中,引文召回率和精确率与流畅性和感知效用成反比。计算引文召回率和精确率与流畅性和感知效用之间的皮尔逊相关系数,发现两者呈强负相关,特别是精确率显示出更强的趋势(表 8)。
例如,Bing Chat 达到了最高的精确度,但其流畅度和感知效用却最低。相比之下,YouChat 的召回率和精确度最低,但它的回答得到了最高的流畅性和感知效用评价。
生成式搜索引擎经常复制或轻微改写被引用网页的内容
下表 9 列出了生成的陈述和从支持的网页中提取的证据之间的相似度指标,当搜索引擎做出的陈述完全或部分得到其引文的支持时,它们往往直接从其引用的文章中复制或改写转述。
文中关于测试,研究的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Percy Liang等人新研究:新必应等生成式搜索引擎可能没那么好用》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 如何使用Golang实现Web应用程序的支付接口

- 下一篇
- 挖掘践行者 寻找AI力量,2023全球智博会奖项揭晓
-
- 科技周边 · 人工智能 | 1天前 |
- AI证件照换装详细教程,手把手教你快速上手!
- 191浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- 深度体验!七大平台调用DeepSeek-R1满血版API保姆级教程
- 486浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- 文心一言还能画图?超详细图文生成教程
- 123浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 | 比亚迪
- 李云飞发声!比亚迪刀片电池竟已提前搞定新国标所有测试?
- 144浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- 长安汽车大换帅!两大产品线CEO正式上任,引力&启源独立运营
- 204浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- 通灵义码使用技巧大公开,效率提升立竿见影!
- 349浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- DeepSeek+有道双剑合璧,多语言文档翻译润色就这么简单!
- 483浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- 豆包AI教程!三步教你用职场吐槽图暴涨粉丝
- 190浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- 雅思口语Part1这样答!AI模拟考官评分+提分技巧
- 298浏览 收藏
-
- 科技周边 · 人工智能 | 2天前 |
- DeepSeek+Pr傻瓜式AI剪辑教程,小白轻松快速上手!
- 416浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 26次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 51次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 59次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 55次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 60次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览