Chinchilla之死:只要训练足够长时间,小模型也能超过大模型
积累知识,胜过积蓄金银!毕竟在科技周边开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《Chinchilla之死:只要训练足够长时间,小模型也能超过大模型》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
2022年3月,DeepMind发表了一篇名为《训练计算优化的大型语言模型》的论文,通过构建Chinchilla模型得出了一个结论:大型模型存在训练不足的问题,模型的大小和训练token的数量应该以相等的比例进行扩展。换句话说,模型越大,所需的训练token也应该越多
但事实可能并非如此,近日,博主 Thaddée Yann TYL 写了一篇题为《Chinchilla 之死》的文章,其中分析解读了 OpenAI 与 DeepMind 几篇论文中的细节,得到了一个出人意料的结论:如果有充足的计算资源和数据,训练足够长时间,小模型的表现也可以超越大模型。
多算胜,少算不胜。——《孙子兵法》
为了避免将算力浪费于缓慢的收敛过程中,进行外推是非常重要的。毕竟,如果你不得不步行去珠穆朗玛峰,你不会只靠眼睛辨别方向,而是会使用 GPS
但有时候,你又不得不把视线从 GPS 上移开,看看道路。有些东西是无法通过简单的公式推断出来的。对十九世纪的物理学家来说,紫外灾变( Ultraviolet catastrophe)便是如此;而现在,LLM 亦是如此。我们估计在中心位置附近有效的东西可能在远处会出现巨大的偏差……

Chinchilla 是什么东西?
更小的模型执行的乘法次数较少,因此训练速度更快。然而,根据理论,更小的模型最终会达到自身知识容量的极限,并且学习速度会变慢;而具有更大知识容量的大型模型在给定的训练时间后会超过小模型,表现出更好的性能
在评估如何在训练期间获得最佳性价比时,OpenAI 和 DeepMind 都会试图绘制帕累托边界(Pareto frontier)。虽然他们没有明确说明他们使用了该理论来绘制,但 OpenAI 曾说过的一句话暗示存在这个隐藏假设:
我们预计更大模型的表现应当总是优于更小的模型…… 大小固定的模型的能力是有限的。
这一假设是计算帕累托边界的基础。在Chinchilla研究中,图2展示了经过大量训练的不同大小模型的训练损失变化情况。初看之下,这些曲线与理论相符:较小的模型一开始的损失较低(表现更好),但损失降低的速度最终变慢并被较大模型的曲线超越

需要重新写的内容是:“比较许多不同模型大小的损失曲线的Chinchilla图。”
在这张图中,当较小的模型输给较大的模型时,他们会标记一个灰色的点。这些点连接起来形成了帕累托边界,这是他们计算缩放定律的方法
这一假设有个问题:我们不知道如果让更小的模型训练更长时间会发生什么,因为他们在小模型被超越时就不再继续训练它们了。
接下来我们来看一下Llama的论文
Chinchilla 是否具有羊驼的视野?
在今年年初,Meta进行了四个不同大小的模型训练。与其他研究不同的是,每个模型都经过了非常长的训练时间,即使是较小的模型也是如此
他们公布了所得到的训练曲线:

四个不同大小的 Llama 模型的训练损失曲线
每一条曲线都会首先以幂律的方式急剧下降
2. 随后,损失开始以近乎线性的方式下降(对应于一个相当稳定的知识获取速度)
在这条曲线的最右端,直线趋势被稍微打破,因为它们稍微变得平缓了一些
首先,对于曲线末端的变平情况,这里解释一下人们可能有的一个微妙的误解。这些模型都是通过梯度下降训练的并且使用了可变的学习率(大致来说,这个超参数定义了每次朝梯度方向前进的程度)。为了获得优良的训练效果,学习率必须不断降低,这样模型才能检测到源材料中更细微的模式。他们用于降低学习率的公式是最常用的余弦调度(cosine schedule)。

在余弦调度下,学习率与训练步数的函数关系:学习率首先线性增长,然后下降且下降速度变快,之后到达中途一个转折点,下降速度再减慢。
从这张图中可以看到,在训练结束时,余弦调度会停止降低学习率,此时已经得到一个很好的近乎线性的训练损失曲线。学习速度减慢就是这种做法造成的。模型并不一定不再具有以同样近乎线性的速率学习的能力!事实上,如果我们能为其提供更多文本,我们就能延长其余弦调度,这样其学习率就会继续以同样速率下降。
模型的适应度图景并不取决于我们供给它训练的数据量;所以学习率下降趋势的改变是没有道理的。
不过这并非本文的重点。
训练损失曲线可能在另一方向上也存在误导性。当然,它们训练使用的数据是一样的,但它们处理这些数据的速度不同。我们想知道的并不是模型的样本效率如何(在这方面,更大的模型显然可以从其所见数据中学到更多)。让我们想象一场比赛:所有这些模型同时开始起步,我们想知道哪个模型首先冲过终点线。换句话说,当在训练时间投入固定量的算力时,哪个模型能在那段时间内学到更多?
幸好我们可以把这些损失曲线与 Meta 提供的另一些数据组合起来看:每个模型训练所用的时间。
让我们先来谈谈上面我们看过的那张 Chinchilla 图吧。这张图只占整个图像的左侧一小部分。在这个小部分中,我们可以看到 Chinchilla 记录了相同的行为。以 7B 版本为例,它的损失下降速度一开始比更大的模型快得多,然后逐渐减慢。之后,13B 版本的模型超过了它,并率先达到了1.9
然后,抵达边境之地,意外的转折出现了:7B 版本进入了近乎线性的疆域,损失稳步下降,看起来似乎走上了反超 13B 版本之路?如果能训练 7B 版本更长时间,说不好会发生什么。
但是,13B 和 33B 版本之间似乎也有类似的现象,其中 13B 版本起初的 Chinchilla 减慢也使其呈现出近乎线性的趋势,这时候 13B 版本的损失下降速度似乎很快!33B 其实胜之不武,因为它超越 13B 版本时已经用去了超过两倍的计算时间。
33B和65B版本之间也出现了相同的先减速再加速的现象,以至于实际上从未被65B超越。这幅图的内容打破了OpenAI和Chinchilla的假设:更大的模型并没有取得胜利(至少目前还没有)。他们检测到的这种减速实际上并不是由于达到了某个能力极限!
尽管如此,7B 模型的线还是有点不尽如人意。如果 Meta 能训练更长时间就好了……
没有必要再悬念了:他们已经训练完毕!他们发布了 Llama 2!
是时候证实我们的怀疑了
四个不同大小的 Llama 2 模型的训练损失曲线
同样,可以获得训练时间
Llama 2 的训练损失与所耗费的 GPU 时间需要重新编写
一眼就能看出,这里的训练损失曲线与Llama 1不同,尽管这些基础模型是一样的。事实证明,Llama 2的训练采用了双倍的上下文大小和更长的余弦调度,不幸的是,这对所有模型的大小都产生了负面影响。然而,更小的模型受到的影响比更大的模型更严重。因此,结果是,在Llama 1的训练时间内,33B模型始终优于65B模型;而在Llama 2的训练时间内,34B模型稍逊于70B模型之前
更重要的是,训练速度的比较强烈地佐证了之前对Llama 1的猜想
1. 在开始阶段,较小的模型比较大的模型更快
2. 然后,更小的模型速度变慢,并被更大的模型超越(按照 Chinchilla)。
3. 但再然后,模型进入近乎线性的区域,这时候更小的模型能更快地下降,获取更优的知识,它们再次超越更大的模型。
这就带来了一个有关训练方法的结论:与普遍的看法相反,更大的模型会产生更差的结果。如果你必须选择一个参数大小和数据集,你可能最好选择 7B 模型,然后在数万亿 token 上训练 7 epoch。
请观察一下7B模型近乎线性的区域,然后将其模式推广到70B模型,观察70B模型训练停止时的情况:如果将70B模型的训练资源用于7B模型,可能会达到更低的困惑度!
从 Llama 2 的曲线还能看到另一点:Llama 1 曲线末端的学习减速实际上是余弦调度造成的。在 Llama 2 的训练中,在对应于 1 万亿 token 读取数的位置,就完全没有这种减速。
实际上,可能的原因是这样的:在相同的位置上,Llama 2 7B 模型的质量低于 Llama 1 7B 模型,可能是因为其余弦调度被拉长了!
我们现在回到那篇关于 Chinchilla 的论文,以证明这一点。在论文的附录 A 中的图 A1 中,作者进行了一系列消融实验,通过使用不同的余弦调度参数来调整学习率曲线的延展方式

余弦调度消融研究的内容需要进行改写
他们指出,当学习率曲线没有延展时,能够实现最低的损失。这一观点得到了图表的支持,但其中也存在一些问题。在读取了600万个标记后,上图模型的训练损失低于2.8;与此同时,在相同的位置,下图模型的训练损失表现更好。然而,这两个模型之间的差异仅仅是余弦调度!由于下图模型注定会处理更多的训练数据,所以计算了更多步骤的「未拉伸的」余弦调度,这实际上产生了拉伸效果。如果学习率按照分配给更少训练步骤的余弦调度进行,那么在相同的训练时间下,损失会更低
更广泛地说,这会引出一个有待解答的问题:如果余弦调度不是最优的,那么曲线的尾部形状应该是什么样子?
重写内容时,需要将原文链接改为:
需要重写的内容是:https://espadrine.github.io/blog/posts/chinchilla-s-death.html
以上就是《Chinchilla之死:只要训练足够长时间,小模型也能超过大模型》的详细内容,更多关于工程,Chinchilla的资料请关注golang学习网公众号!

- 上一篇
- 20多种意识理论的争论仍未有定论:五年过去了,没有一个理论能够占据主导地位

- 下一篇
- 语言模型有重大缺陷,知识推演竟然是老大难
-
- 科技周边 · 人工智能 | 9小时前 | 智能辅助驾驶 firefly萤火虫 地平线征程 高端智能电动小车 全球市场
- 地平线与蔚来合作车型firefly萤火虫正式上市
- 245浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 即梦ai添加时间戳教程即梦ai日期水印设置攻略
- 369浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 小米汽车上险量下降:YU7投产惹的祸
- 499浏览 收藏
-
- 科技周边 · 人工智能 | 19小时前 |
- MistralAI发布多模态模型MistralMedium3
- 446浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 14次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 14次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 28次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 28次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 53次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览