UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5
IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5》,聊聊,我们一起来看看吧!
最近,来自LMSYS Org(UC伯克利主导)的研究人员又搞了个大新闻——大语言模型版排位赛!
顾名思义,「LLM排位赛」就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。
然后,我们就能一眼看出,某个聊天机器人到底是「嘴强王者」还是「最强王者」。
划重点:团队还计划把国内和国外的这些「闭源」模型都搞进来,是骡子是马溜溜就知道了!(GPT-3.5现在就已经在匿名竞技场里了)
匿名聊天机器人竞技场长下面这样:
很明显,模型B回答正确,拿下这局;而模型A连题都没读懂……
项目地址:https://arena.lmsys.org/
在当前的排行榜中,130亿参数的Vicuna以1169分稳居第一,同样130亿参数的Koala位列第二,LAION的Open Assistant排在第三。
清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。
相比之下,Meta原版的LLaMa只排到了第八(倒数第二),而Stability AI的StableLM则获得了唯一的800+分,排名倒数第一。
团队表示,之后不仅会定期更新排位赛榜单,而且还会优化算法和机制,并根据不同的任务类型提供更加细化的排名。
目前,所有的评估代码以及数据分析均已公布。
拉着LLM打排位
在这次的评估中,团队选择了目前比较出名的9个开源聊天机器人。
每次1v1对战,系统都会随机拉两个上场PK。用户则需要同时和这两个机器人聊天,然后决定哪个聊天机器人聊的更好。
可以看到,页面下面有4个选项,左边(A)更好,右边(B)更好,一样好,或者都很差。
当用户提交投票之后,系统就会显示模型的名称。这时,用户可以继续聊天,或者选择新的模型重新开启一轮对战。
不过,团队在分析时,只会采用模型是匿名时的投票结果。在经过差不多一周的数据收集之后,团队共收获了4.7k个有效的匿名投票。
在开始之前,团队先根据基准测试的结果,掌握了各个模型可能的排名。
根据这个排名,团队会让模型去优先选择更合适的对手。
然后,再通过均匀采样,来获得对排名的更好总体覆盖。
在排位赛结束时,团队又引入了一种新模型fastchat-t5-3b。
以上这些操作最终导致了非均匀的模型频率。
每个模型组合的对战次数
从统计数据来看,大多数用户所用的都是英语,中文排在第二位。
排名前15的语言的对战次数
评估LLM,真的很难
自从ChatGPT爆火之后,经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。可以说,几乎每周都有新的开源LLM在发布。
但问题是,评估这些大语言模型非常难。
具体来说,目前用来衡量一个模型好不好的东西基本都是基于一些学术的benchmark,比如在一个某个NLP任务上构建一个测试数据集,然后看测试数据集上准确率多少。
然而,这些学术benchmark(如HELM)在大模型和聊天机器人上就不好用了。其原因在于:
1. 由于评判聊天机器人聊得好不好这件事是非常主观的,因此现有的方法很难对其进行衡量。
2. 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍,因此很难保证测试用的数据集没有被看到过。甚至更进一步,用测试集直接对模型进行「特训」,如此一来表现必然更好。
3. 理论上我们可以和聊天机器人聊任何事情,但很多话题或者任务在现存的benchmark里面根本就不存在。
那如果不想采用这些benchmark的话,其实还有一条路可以走——花钱请人来给模型打分。
实际上,OpenAI就是这么搞的。但是这个方法明显很慢,而且更重要的是,太贵了……
为了解决这个棘手的问题,来自UC伯克利、UCSD、CMU的团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场(Chatbot Arena)。
相比而言,基于对战的基准系统具有以下优势:
- 可扩展性(Scalability)
当不能为所有潜在的模型对收集足够的数据时,系统应能扩展到尽可能多的模型。
- 增量性(Incrementality)
系统应能够使用相对较少的试验次数评估新模型。
- 唯一顺序(Unique order)
系统应为所有模型提供唯一顺序。给定任意两个模型,我们应该能够判断哪个排名更高或它们是否并列。
Elo评分系统
Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。
比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。
举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。
而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。
具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:
然后,玩家的评分会在每场对战后线性更新。
假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:
1v1胜率
此外,作者还展示了排位赛中每个模型的对战胜率以及使用Elo评分估算的预测对战胜率。
结果显示,Elo评分确实可以相对准确地进行预测
所有非平局A对B战斗中模型A胜利的比例
在A对B战斗中,使用Elo评分预测的模型A的胜率
作者介绍
「聊天机器人竞技场」由前小羊驼作者机构LMSYS Org发布。
该机构由UC伯克利博士Lianmin Zheng和UCSD准教授Hao Zhang创立,目标是通过共同开发开放的数据集、模型、系统和评估工具,使每个人都能获得大型模型。
Lianmin Zheng
Lianmin Zheng是加州大学伯克利分校EECS系的博士生,他的研究兴趣包括机器学习系统、编译器和分布式系统。
Hao Zhang
Hao Zhang目前是加州大学伯克利分校的博士后研究员。他将于2023年秋季开始在加州大学圣地亚哥分校Halıcıoğlu数据科学研究所和计算机系担任助理教授。
终于介绍完啦!小伙伴们,这篇关于《UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 白宫首次公布减少 AI 风险的举措:将拨款 1.4 亿美元建立研究中心

- 下一篇
- 微软宣布开放必应聊天机器人,登录微软账户即可访问
-
- 科技周边 · 人工智能 | 6小时前 |
- 智能音箱联动DeepSeek,语音控制全攻略
- 458浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 通义千问情感文案怎么写?真实案例解析
- 197浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- Deepseek满血版联动TypinatorPro,文本模板高效创建
- 163浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 豆包AI搭建Python环境,3命令快速隔离配置
- 400浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- DeepSeek整合Teams,微软生态深度合作指南
- 289浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- AI工具高手进阶指南:从新手到精通课程
- 364浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- Claude快捷指令设置及常用命令详解
- 362浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 即梦AI音量调整教程声音轨道编辑方法
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- AI剪辑平台语音识别推荐
- 419浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 豆包AI助你轻松编写async/await代码
- 445浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- Claude地域限制破解与跨境使用方法
- 266浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 119次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 114次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 131次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 124次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 127次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览