Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了
最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~
为了挑战 OpenAI 的 GPT-3.5 和 GPT-4 等封闭模型的主导地位,一系列开源模型正在崛起,其中包括 LLaMa、Falcon 等。最近,Meta AI 推出了被誉为开源领域最强大模型的 LLaMa-2,许多研究者也在此基础上构建自己的模型。例如,StabilityAI 利用 Orca 风格的数据集对 Llama2 70B 模型进行微调,开发出了 StableBeluga2,在 Huggingface 的 Open LLM 排行榜上也取得了不错的成绩
最新的Open LLM榜单排名已经发生了变化,Platypus(鸭嘴兽)模型成功登上了榜首
作者来自波士顿大学,使用了PEFT、LoRA和数据集Open-Platypus对Platypus进行了基于Llama 2的微调优化
作者在一篇论文中详细介绍了Platypus
这篇论文可以在以下网址找到:https://arxiv.org/abs/2308.07317
以下是本文的主要贡献:
- Open-Platypus 是一个小规模的数据集,由公共文本数据集的精选子集组成。该数据集由 11 个开源数据集组成,重点是提高 LLM 的 STEM 和逻辑知识。它主要由人类设计的问题组成,只有 10% 的问题是由 LLM 生成的。Open-Platypus 的主要优势在于其规模和质量,它可以在很短的时间内实现非常高的性能,并且微调的时间和成本都很低。具体来说,在单个 A100 GPU 上使用 25k 个问题训练 13B 模型只需 5 个小时。
- 描述了相似性排除过程,减少数据集的大小,并减少数据冗余。
- 详细分析了始终存在的开放 LLM 训练集与重要 LLM 测试集中包含的数据相污染的现象,并介绍了作者避免这一隐患的训练数据过滤过程。
- 介绍了对专门的微调 LoRA 模块进行选择和合并的过程。
Open-Platypus 数据集
作者目前已在 Hugging Face 上发布了 Open-Platypus 数据集
污染问题
为了避免基准测试问题泄漏到训练集中,本文方法首先考虑防止此问题,以确保结果不仅仅是通过记忆产生的偏差。作者在追求准确性的同时,也意识到在标记请再说一次问题时需要灵活性,因为问题的提出方式多种多样,同时还会受到通用领域知识的影响。为了管理潜在的泄漏问题,作者精心设计了启发式方法,用于手动过滤与 Open-Platypus 中基准问题余弦嵌入相似度超过80%的问题。他们将潜在泄漏问题分为三类:(1) 请再说一次问题;(2) 重新描述: 这个区域呈现出灰色的色调问题;(3) 类似但不完全相同的问题。为了谨慎起见,他们将所有这些问题都排除在训练集之外
请再说一次
这段文字几乎完全复制了测试题集的内容,只是对单词进行了轻微修改或重新排列。根据上表中泄漏问题的数量,作者认为这是唯一属于污染的类别。以下是具体例子:
重新描述: 这个区域呈现出灰色的色调
以下问题被称为重新描述: 这个区域呈现出灰色的色调,包括并非完全请再说一次、属于常识范畴的问题。虽然作者将这些问题的最终评判权留给了开源社区,但他们认为这些问题往往需要专家知识。需要注意的是,这类问题包括指令完全相同,但答案却同义的问题:
类似但不完全相同
这些问题的具有较高的相似度,但由于问题之间有着细微的变化,在答案上存在着显著差异。
微调与合并
作者在数据集完善后,专注于两种方法:低秩近似(LoRA)训练和参数高效微调(PEFT)库。与完全微调不同,LoRA保留了预训练模型的权重,并在transformer层中使用秩分解矩阵进行整合,从而减少了可训练参数,节省了训练时间和成本。最初,微调主要集中在注意力模块,如v_proj、q_proj、k_proj和o_proj。随后,根据He等人的建议,扩展到gate_proj、down_proj和up_proj模块。除非可训练参数小于总参数的0.1%,否则这些模块都表现出更好的效果。作者对13B和70B模型都采用了这种方法,结果可训练参数分别为0.27%和0.2%。唯一的区别在于这些模型的初始学习率
结果
根据2023年8月10日Hugging Face Open LLM排行榜数据,作者对Platypus与其他SOTA模型进行了比较,发现Platypus2-70Binstruct变体表现出色,以73.13的平均分稳居榜首
Stable-Platypus2-13B 模型在 130 亿参数模型中以 63.96 的平均分脱颖而出,值得关注
局限性
Platypus, as a fine-tuned extension of LLaMa-2, retains many of the constraints of the base model and introduces specific challenges through targeted training. It shares the static knowledge base of LLaMa-2, which may become outdated. Additionally, there is a risk of generating inaccurate or inappropriate content, particularly in cases of unclear prompts. While Platypus has been enhanced in STEM and English logic, its proficiency in other languages is not reliable and may be inconsistent. It occasionally produces biased or harmful content. The author acknowledges efforts to minimize these issues but acknowledges the ongoing challenges, particularly in non-English languages.
对于 Platypus 的滥用可能性,这是一个令人担忧的问题,因此在部署之前开发人员应对其应用程序进行安全测试。Platypus 在其主要领域之外可能存在一些限制,因此用户应小心操作,并考虑进行额外的微调以获得最佳性能。用户需要确保 Platypus 的训练数据与其他基准测试集没有重叠。作者对数据污染问题非常谨慎,避免将模型与在有污点的数据集上训练的模型合并。虽然经过清理的训练数据中确认没有污染,但也不能排除可能有一些问题被忽略。如需详细了解这些限制,请参阅论文中的限制部分
以上就是《Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了》的详细内容,更多关于AI,模型的资料请关注golang学习网公众号!

- 上一篇
- 首部 VR 探险求生互动纪录片《跟着德爷闯东非》即将上线

- 下一篇
- 小爱同学已经开测大模型 小米很快实现端侧AI模型能力
-
- 科技周边 · 人工智能 | 4分钟前 |
- AIOverviews支持图表生成吗?
- 128浏览 收藏
-
- 科技周边 · 人工智能 | 7分钟前 |
- EX-4D框架:字节跳动Pico新突破
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 10分钟前 |
- 尊界S8006月26日交付,搭载华为ADS4.0系统
- 343浏览 收藏
-
- 科技周边 · 人工智能 | 12分钟前 | AI生成 复杂SQL语句
- 豆包AI写复杂SQL技巧全解析
- 368浏览 收藏
-
- 科技周边 · 人工智能 | 19分钟前 |
- 豆包AI爆款案例!三天涨粉5w的影视梗图解析
- 179浏览 收藏
-
- 科技周边 · 人工智能 | 21分钟前 | 辅助编程
- ReplitAI编程技巧:代码补全与纠错指南
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 25分钟前 |
- 豆包AI如何处理日期时间?
- 159浏览 收藏
-
- 科技周边 · 人工智能 | 33分钟前 |
- 零门槛配置DeepSeek,功能全攻略
- 143浏览 收藏
-
- 科技周边 · 人工智能 | 41分钟前 |
- 新手必学通灵义码技巧提升效率
- 240浏览 收藏
-
- 科技周边 · 人工智能 | 44分钟前 |
- ChatGPT语音输入怎么设置
- 234浏览 收藏
-
- 科技周边 · 人工智能 | 47分钟前 |
- 即梦AI动态背景添加教程场景切换技巧
- 166浏览 收藏
-
- 科技周边 · 人工智能 | 48分钟前 |
- ChatGPT插件有哪些?实用插件推荐与安装教程
- 494浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 11次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 156次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 186次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 174次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 161次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览