给大模型评分的基准靠谱吗?Anthropic来了次大评估
从现在开始,努力学习吧!本文《给大模型评分的基准靠谱吗?Anthropic来了次大评估》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
在大模型(LLM)盛行的当下,评估 AI 系统成为了重要的一环,在评估过程中都会遇到哪些困难,Anthropic 的一篇文章为我们揭开了答案。
现阶段,大多数围绕人工智能 (AI)对社会影响的讨论可归结为 AI 系统的某些属性,例如真实性、公平性、滥用的可能性等。但现在面临的问题是,许多研究人员并没有完全意识到建立稳健可靠的模型评估是多么困难。当今许多现有的评估套件在各个方面的表现都很有限。
AI 初创公司 Anthropic 近日在其官方网站上贴出了一篇文章《评估 AI 系统所面临的挑战》。文中写道,他们花了很长的时间来构建对 AI 系统的评估,从而更好地理解 AI 系统。
文章地址:https://www.anthropic.com/index/evaluating-ai-systems
本文主要从以下几个方面展开讨论:
多项选择评估(Multiple choice evaluations);
利用第三方评估框架,如 BIG-bench 和 HELM;
让工作人员来衡量模型是有益的还是有害的;
让领域专家对相关威胁进行红队分析(red team);
使用生成式 AI 来开发评估方法;
与非营利组织合作,审核模型是否具有危害。
多项选择评估面临的挑战
多项选择评估看似简单,其实不然。本文讨论了模型在 MMLU(Measuring Multitask Language Understanding)和 BBQ(Bias Benchmark for QA)基准上的挑战。
MMLU 数据集
MMLU 是一个包含 57 个多选问答任务的英文评测数据集,涵盖数学、历史、法律等,是目前主流的 LLM 评测数据集。准确率越高,意味着模型的能力越强。但本文发现使用 MMLU 存在四个挑战:
1. 由于 MMLU 被广泛使用,因而就不可避免的遇到这种情况,模型在训练过程中更容易将 MMLU 数据纳入进来。这和学生在考试前看到题目是一样的 —— 这是作弊。
2. 对简单的格式变化敏感,例如将选项从 (A) 更改为 (1),或者在选项和答案之间添加额外的空格,这些做法都可能导致评估准确率约有 5% 的浮动。
3. 一些开发人员有针对性的来提高 MMLU 分数,例如少样本学习或思维链推理。因此,在比较各个实验室的 MMLU 分数时必须非常小心。
4.MMLU 可能没有经过仔细的校对 —— 有研究者在 MMLU 中发现了标签错误或无法回答的例子。
由于上述问题,因而在进行这种简单且标准化的评估时,有必要事先做出判断和思考。本文表明,在使用 MMLU 中遇到的挑战通常也适用于其他类似的多项选择评估。
BBQ
多项选择评估还可以衡量一些 AI 危害。具体而言,Anthropic 的研究者为了在自家模型 Claude 中衡量这些危害,他们使用了 BBQ 基准(用于评估模型对人群偏见的常用基准)。在将此基准与几个类似的评估进行比较后,本文才确信 BBQ 提供了一个很好的衡量社会偏见的方法。这项工作花了他们几个月的时间。
本文表示,实施 BBQ 比预期要困难得多。首先是找不到一个可用的 BBQ 开源实现,Anthropic 最好的工程师花了一个星期的时间来执行和测试评估。与 MMLU 中按照准确率评估不同,BBQ 中的 bias 得分需要细微差别和经验来定义、计算和解释。
BBQ bias 得分范围从 - 1 到 1,其中 1 表示有明显的刻板偏见,0 表示没有偏见,-1 表示有明显的反刻板偏见。在实现 BBQ 之后,本文发现一些模型 bias 得分为 0,这一结果也让研究者感到乐观,表明他们在减少有偏见的模型输出方面取得了进展。
第三方评估框架
最近,第三方一直在积极开发评估套件。到目前为止,Anthropic 已经参与了其中的两个项目:BIG-bench 和斯坦福大学的 HELM(Holistic Evaluation of Language Models)。尽管第三方评估看起来很有用,但这两个项目都面临新的挑战。
BIG-bench
BIG-bench 包含 204 项评估,由 450 多名研究者合作完成,涵盖从科学到社会推理的一系列主题。Anthropic 表示他们在使用这个基准时遇到了一些挑战:为了安装 BIG-bench,他们耗费了大量的时间。BIG-bench 不像 MMLU 那样即插即用 —— 它甚至比使用 BBQ 更多的努力来实施。
BIG-bench 无法有效的扩展,想要全部完成 204 项评估具有很大的挑战性。因而需要重新编写,以便与使用的基础设施很好地配合,工作量巨大。
此外,在实施过程中,本文发现评估中存在一些 bug,使用起来非常不便利,因此 Anthropic 的研究人员在这次实验后放弃了它。
HELM:自上而下地策划一组评估
BIG-bench 是一项「自下而上」的工作,任何人都可以提交任何任务,然后由一组专家组织者进行有限的审查。而 HELM 则采用「自上而下」的方法,由专家决定用什么任务评估模型。
具体来说,HELM 在推理场景、含虚假信息场景等多个场景中评估模型,采用准确性、稳健性、公平性等标准指标。Anthropic 为 HELM 开发人员提供 API 访问权限,以便在其模型上运行基准测试。
相比于 BIG-bench,HELM 有两个优势:1)它不需要进行大量的工程工作,2)可以依靠专家来选择和解释特定的高质量评估。
然而,HELM 也带来了一些挑战。适用于评估其他模型的方法不一定适用于 Anthropic 的模型,反之亦然。例如,Anthropic 的 Claude 系列模型经过训练,遵循特定的文本格式,称为 Human/Assistant 格式。Anthropic 内部评估其模型时会遵循这种特定格式。如果不遵循这种格式,Claude 有时就会给出不寻常的回答,从而使标准评估指标的结果不太可信。
此外,HELM 需要很长的时间才能完成,评估新模型可能需要几个月的时间,并且需要与外部各方进行协调和沟通。
人工智能系统是为了与人进行开放式动态交互而设计的,那么如何对模型进行更接近现实应用的评估?
众包人员进行 A/B 测试
目前,领域内主要(但不完全)依赖一种基本类型的人类评估 —— 在众包平台上进行 A/B 测试,人们在其中与两个模型进行开放式对话,并从模型 A 或 B 中选择响应更有帮助或更无害,根据模型的有用性或无害性对模型进行排名。这种评估方法的优点是与现实环境相对应,并允许对不同的模型进行排名。
然而,这种评估方法有一些局限性,实验运行起来既昂贵又耗时。
首先,这种方法需要与第三方众包平台合作并为其付费,为模型构建自定义 Web 界面,为 A/B 测试人员设计详细的说明,还要分析和存储结果数据,并解决雇用众包人员带来的道德挑战。
在无害性测试情况下,实验还存在使人们接触有害输出的风险。人类评估的结果可能还会因人类评估者的特征存在很大差异,包括人类评估者的创造力水平、动机以及识别所测试系统潜在缺陷的能力。
此外,有用和无害之间存在固有的张力。系统可以通过提供无用的响应(例如「抱歉,我无法帮助您」)来降低有害性。
有用与无害之间的正确平衡是什么?什么指标数值表明模型足够有用且无害?诸多问题需要领域内研究者做更多工作来找到答案。
了解更多内容,请参考原文章。
原文链接:https://www.anthropic.com/index/evaluating-ai-systems
文中关于产业,Anthropic的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《给大模型评分的基准靠谱吗?Anthropic来了次大评估》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 工厂要花多少钱,才敢说自己在做数字化转型?

- 下一篇
- 消息称《英雄联盟:双城之战》第二季明年 11 月上线 Netflix
-
- 科技周边 · 人工智能 | 3小时前 | 深蓝汽车
- 深蓝汽车4月销量2.01万辆,同比增58%
- 170浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 小鹏智驾辟谣回归有图方案,详解基座模型路线
- 410浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- U8L上海车展首秀,甲骨文黄金车标亮眼
- 470浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- DeepSeek-Prover-V2发布:开源数学推理大模型
- 196浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 | 自动化 挑战 豆包AI智能体生成器 定制AI 智能决策
- 豆包AI智能体生成器,轻松打造你的专属AI
- 461浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 新势力Q1销量揭晓:仅两家达20%年目标
- 382浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 大众电动车欧洲销量超特斯拉注册量暴涨
- 332浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 10次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 9次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 8次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 13次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 14次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览