当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > RNN模型在1%的成本下性能接近Mistral-7B,支持100+种语言全球最多,挑战Transformer hegemony!

RNN模型在1%的成本下性能接近Mistral-7B,支持100+种语言全球最多,挑战Transformer hegemony!

来源:51CTO.COM 2024-03-28 17:18:33 0浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《RNN模型在1%的成本下性能接近Mistral-7B,支持100+种语言全球最多,挑战Transformer hegemony!》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

在大模型内卷的同时,Transformer的地位也接连受到挑战。

近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。

Eagle 7B在多语言基准测试中脱颖而出,在英语测试中与顶尖模型不相上下。

同时,Eagle 7B用的是RNN架构,相比于同尺寸的Transformer模型,推理成本降低了10-100倍以上,可以说是世界上最环保的7B模型。

由于RWKV-v5的论文可能要下个月才能发布,我们先提供RWKV的论文,这是第一个将参数扩展到数百亿的非Transformer架构。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

论文地址:https://arxiv.org/pdf/2305.13048.pdf

EMNLP 2023录用了这篇工作,作者来自世界各地的顶尖高校、研究机构和科技公司。

下面是Eagle 7B的官图,表示这只老鹰正在飞跃变形金刚。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

Eagle 7B

Eagle 7B使用来自100多种语言的,1.1T(万亿)个Token的训练数据,在下图的多语言基准测试中,Eagle 7B平均成绩位列第一。

基准测试包括xLAMBDA、xStoryCloze、xWinograd和xCopa,涵盖了23种语言,以及各自语言的常识推理。

Eagle 7B拿到了其中三项的第一,尽管有一项没打过Mistral-7B,屈居第二,但对手使用的训练数据要远高于Eagle。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

下图的英语测试包含了12个独立的基准、常识推理和世界知识。

在英语性能测试中,Eagle 7B的水平接近Falcon(1.5T)、LLaMA2(2T)、Mistral(>2T),与同样使用了1T左右训练数据的MPT-7B不相上下。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

并且,在两种测试中,新的v5架构相比于之前的v4,有了巨大的整体飞跃。

Eagle 7B目前由Linux基金会托管,以Apache 2.0许可证授权,可以不受限制地用于个人或商业用途。

多语言支持

前面说了,Eagle 7B的训练数据来自100多种语言,而上面采用的4项多语言基准测试只包括了23种语言。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

虽然取得了第一名的成绩,但总的来说,Eagle 7B是吃亏的,毕竟,基准测试无法直接评估模型在其他70多种语言中的性能。

额外的训练代价并不能帮助自己刷榜,如果集中在英语,可能会获得比现在更好的成绩。

——那么,RWKV为什么要这么做呢?官方对此表示:

Building inclusive AI for everyone in this world —— not just the English

在对于RWKV模型的众多反馈中,最常见的是:

多语言方法损害了模型的英语评估分数,并减缓了线性Transformer的发展;

让多语言模型与纯英语模型,比较多语言性能是不公平的

官方表示,「在大多数情况下,我们同意这些意见,」

「但我们没有计划改变这一点,因为我们正在为世界构建人工智能——这不仅仅是一个英语世界。」

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

2023年,世界上只有17%的人口会说英语(大约13亿人),但是,通过支持世界上排名前25位的语言,模型可以覆盖大约40亿人,即世界人口总数的50%。

团队希望未来的人工智能可以为每个人都提供帮助,比如让模型可以在低端硬件上以低廉的价格运行,比如支持更多的语言。

团队将在之后逐渐扩大多语言数据集,以支持更广泛的语言,并慢慢将覆盖范围扩大到世界上100%的地区,——确保没有语言被遗漏。

数据集+可扩展架构

在模型的训练过程中,有一个值得注意的现象:

随着训练数据规模不断增加,模型的性能逐渐进步,当训练数据达到300B左右时,模型显示出与pythia-6.9b 相似的性能,而后者的训练数据量为300B。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

这个现象与之前在RWKV-v4架构上进行的一项实验相同,——也就是说,在训练数据规模相同的情况下,像RWKV这种线性Transformer的性能会和Transformer差不多。

那么我们不禁要问,如果确实如此,那么是不是相比于确切的架构,数据反而对模型的性能提升更加重要?

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

我们知道,Transformer类的模型,计算和存储代价是平方级别的,而在上图中RWKV架构的计算成本只是随着Token数线性增长。

也许我们应该寻求更高效、更可扩展的架构,以提高可访问性,降低每个人的人工智能成本,并减少对环境的影响。

RWKV

RWKV架构是一种具有GPT级别LLM性能的RNN,同时又可以像Transformer一样并行化训练。

RWKV结合了RNN和Transformer的优点——出色的性能、快速推理、快速训练、节省VRAM、「无限」的上下文长度和免费的句子嵌入,RWKV并不使用注意力机制。

下图展示了RWKV与Transformer派模型在计算成本上的对比:

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

为了解决Transformer的时间和空间复杂度问题,研究人员提出了多种架构:

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

RWKV架构由一系列堆叠的残差块组成,每个残差块由一个具有循环结构的时间混合和一个通道混合子块组成

下图中左边为RWKV块元素,右边为RWKV残差块,以及用于语言建模的最终头部。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

递归可以表述为当前输入和前一个时间步的输入之间的线性插值(如下图中的对角线所示),可以针对输入嵌入的每个线性投影独立调整。

这里还引入了一个单独处理当前Token的向量,以补偿潜在的退化。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

RWKV可以在我们所说的时间并行模式下有效地并行化(矩阵乘法)。

在循环网络中,通常使用前一时刻的输出作为当前时刻的输入。这在语言模型的自回归解码推理中尤为明显,它要求在输入下一步之前计算每个令牌,从而使RWKV能够利用其类似RNN的结构,称为时间顺序模式。

在这种情况下,RWKV可以方便地递归表述,以便在推理过程中进行解码,它利用了每个输出令牌仅依赖于最新状态的优势,状态的大小是恒定的,而与序列长度无关。

然后充当RNN解码器,相对于序列长度产生恒定的速度和内存占用,从而能够更有效地处理较长的序列。

相比之下,自注意力的KV缓存相对于序列长度不断增长,从而导致效率下降,并随着序列的延长而增加内存占用和时间。

参考资料:

https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

今天关于《RNN模型在1%的成本下性能接近Mistral-7B,支持100+种语言全球最多,挑战Transformer hegemony!》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于模型,Eagle 7B,RNN的内容请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Vue3与Vue2的差异:新组合式 API 的介绍Vue3与Vue2的差异:新组合式 API 的介绍
上一篇
Vue3与Vue2的差异:新组合式 API 的介绍
Vue和HTMLDocx:优化文档导出的方法和技巧
下一篇
Vue和HTMLDocx:优化文档导出的方法和技巧
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    24次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    41次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    38次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    50次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    41次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码