当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > RNN模型在1%的成本下性能接近Mistral-7B，支持100+种语言全球最多，挑战Transformer hegemony!

RNN模型在1%的成本下性能接近Mistral-7B，支持100+种语言全球最多，挑战Transformer hegemony!

来源：51CTO.COM 2024-03-28 17:18:33 0浏览收藏

“纵有疾风来，人生不言弃”，这句话送给正在学习科技周边的朋友们，也希望在阅读本文《RNN模型在1%的成本下性能接近Mistral-7B，支持100+种语言全球最多，挑战Transformer hegemony!》后，能够真的帮助到大家。我也会在后续的文章中，陆续更新科技周边相关的技术文章，有好的建议欢迎大家在评论留言，非常感谢！

在大模型内卷的同时，Transformer的地位也接连受到挑战。

近日，RWKV发布了Eagle 7B模型，基于最新的RWKV-v5架构。

Eagle 7B在多语言基准测试中脱颖而出，在英语测试中与顶尖模型不相上下。

同时，Eagle 7B用的是RNN架构，相比于同尺寸的Transformer模型，推理成本降低了10-100倍以上，可以说是世界上最环保的7B模型。

由于RWKV-v5的论文可能要下个月才能发布，我们先提供RWKV的论文，这是第一个将参数扩展到数百亿的非Transformer架构。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

论文地址：https://arxiv.org/pdf/2305.13048.pdf

EMNLP 2023录用了这篇工作，作者来自世界各地的顶尖高校、研究机构和科技公司。

下面是Eagle 7B的官图，表示这只老鹰正在飞跃变形金刚。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

Eagle 7B

Eagle 7B使用来自100多种语言的，1.1T（万亿）个Token的训练数据，在下图的多语言基准测试中，Eagle 7B平均成绩位列第一。

基准测试包括xLAMBDA、xStoryCloze、xWinograd和xCopa，涵盖了23种语言，以及各自语言的常识推理。

Eagle 7B拿到了其中三项的第一，尽管有一项没打过Mistral-7B，屈居第二，但对手使用的训练数据要远高于Eagle。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

下图的英语测试包含了12个独立的基准、常识推理和世界知识。

在英语性能测试中，Eagle 7B的水平接近Falcon（1.5T）、LLaMA2（2T）、Mistral（>2T），与同样使用了1T左右训练数据的MPT-7B不相上下。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

并且，在两种测试中，新的v5架构相比于之前的v4，有了巨大的整体飞跃。

Eagle 7B目前由Linux基金会托管，以Apache 2.0许可证授权，可以不受限制地用于个人或商业用途。

多语言支持

前面说了，Eagle 7B的训练数据来自100多种语言，而上面采用的4项多语言基准测试只包括了23种语言。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

虽然取得了第一名的成绩，但总的来说，Eagle 7B是吃亏的，毕竟，基准测试无法直接评估模型在其他70多种语言中的性能。

额外的训练代价并不能帮助自己刷榜，如果集中在英语，可能会获得比现在更好的成绩。

——那么，RWKV为什么要这么做呢？官方对此表示：

Building inclusive AI for everyone in this world —— not just the English

在对于RWKV模型的众多反馈中，最常见的是：

多语言方法损害了模型的英语评估分数，并减缓了线性Transformer的发展；

让多语言模型与纯英语模型，比较多语言性能是不公平的

官方表示，「在大多数情况下，我们同意这些意见，」

「但我们没有计划改变这一点，因为我们正在为世界构建人工智能——这不仅仅是一个英语世界。」

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

2023年，世界上只有17%的人口会说英语（大约13亿人），但是，通过支持世界上排名前25位的语言，模型可以覆盖大约40亿人，即世界人口总数的50%。

团队希望未来的人工智能可以为每个人都提供帮助，比如让模型可以在低端硬件上以低廉的价格运行，比如支持更多的语言。

团队将在之后逐渐扩大多语言数据集，以支持更广泛的语言，并慢慢将覆盖范围扩大到世界上100%的地区，——确保没有语言被遗漏。

数据集+可扩展架构

在模型的训练过程中，有一个值得注意的现象：

随着训练数据规模不断增加，模型的性能逐渐进步，当训练数据达到300B左右时，模型显示出与pythia-6.9b 相似的性能，而后者的训练数据量为300B。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

这个现象与之前在RWKV-v4架构上进行的一项实验相同，——也就是说，在训练数据规模相同的情况下，像RWKV这种线性Transformer的性能会和Transformer差不多。

那么我们不禁要问，如果确实如此，那么是不是相比于确切的架构，数据反而对模型的性能提升更加重要？

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

我们知道，Transformer类的模型，计算和存储代价是平方级别的，而在上图中RWKV架构的计算成本只是随着Token数线性增长。

也许我们应该寻求更高效、更可扩展的架构，以提高可访问性，降低每个人的人工智能成本，并减少对环境的影响。

RWKV

RWKV架构是一种具有GPT级别LLM性能的RNN，同时又可以像Transformer一样并行化训练。

RWKV结合了RNN和Transformer的优点——出色的性能、快速推理、快速训练、节省VRAM、「无限」的上下文长度和免费的句子嵌入，RWKV并不使用注意力机制。

下图展示了RWKV与Transformer派模型在计算成本上的对比：

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

为了解决Transformer的时间和空间复杂度问题，研究人员提出了多种架构：

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

RWKV架构由一系列堆叠的残差块组成，每个残差块由一个具有循环结构的时间混合和一个通道混合子块组成

下图中左边为RWKV块元素，右边为RWKV残差块，以及用于语言建模的最终头部。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

递归可以表述为当前输入和前一个时间步的输入之间的线性插值（如下图中的对角线所示），可以针对输入嵌入的每个线性投影独立调整。

这里还引入了一个单独处理当前Token的向量，以补偿潜在的退化。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

RWKV可以在我们所说的时间并行模式下有效地并行化（矩阵乘法）。

在循环网络中，通常使用前一时刻的输出作为当前时刻的输入。这在语言模型的自回归解码推理中尤为明显，它要求在输入下一步之前计算每个令牌，从而使RWKV能够利用其类似RNN的结构，称为时间顺序模式。

在这种情况下，RWKV可以方便地递归表述，以便在推理过程中进行解码，它利用了每个输出令牌仅依赖于最新状态的优势，状态的大小是恒定的，而与序列长度无关。

然后充当RNN解码器，相对于序列长度产生恒定的速度和内存占用，从而能够更有效地处理较长的序列。

相比之下，自注意力的KV缓存相对于序列长度不断增长，从而导致效率下降，并随着序列的延长而增加内存占用和时间。

参考资料：

https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

今天关于《RNN模型在1%的成本下性能接近Mistral-7B，支持100+种语言全球最多，挑战Transformer hegemony!》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于模型,Eagle 7B,RNN的内容请关注golang学习网公众号！

模型 Eagle 7B RNN

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

Vue3与Vue2的差异：新组合式 API 的介绍

Vue3与Vue2的差异：新组合式 API 的介绍

上一篇: Vue3与Vue2的差异：新组合式 API 的介绍

Vue和HTMLDocx：优化文档导出的方法和技巧

下一篇: Vue和HTMLDocx：优化文档导出的方法和技巧

查看更多

最新文章

科技周边 · 人工智能 | 1天前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 3天前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 6天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

1392次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

1339次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

1287次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

1464次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

1456次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码