当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

来源:51CTO.COM 2024-04-26 10:15:15 0浏览 收藏

今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!

不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:

提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)

这两种序列模型以RWKV-4架构为基础,然后作了改进。

新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。

同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。

团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。

目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

新模型Eagle和Finch

此次更新的RWKV,共包含6个模型,分别是:

4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小;
2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。

Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。

此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。

最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。

其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。

而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。

其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。

基准测试结果如何?

光有架构创新还不够,关键要看模型的实际表现。

来看看新模型在各大权威评测榜单上的成绩——

MQAR测试结果

MQAR (Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。

在这类任务中,模型需要通过给定的多个查询来检索相关的信息。

MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。

下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。

长上下文实验

在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。

(所有模型均基于上下文长度4096进行预训练)

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。

速度和显存基准测试

速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型
魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。

多语言任务表现

日语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

西班牙语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

阿拉伯语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

日语-英语

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

下一步工作

以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》

论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。

目前,彭博在Github有2.1k的followers。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。

并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。

魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型

量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)

接下来,RWKV的重点工作将放在以下几个方向:

  • 扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项)
  • 训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。
  • 对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。

论文链接:

https://arxiv.org/pdf/2404.05892.pdf

好了,本文到此结束,带大家了解了《魔改RNN挑战Transformer,RWKV上新:推出两种新架构模型》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
PHP 函数库中有什么内容?PHP 函数库中有什么内容?
上一篇
PHP 函数库中有什么内容?
问界M5智驾版V3.3.9.6系统更新发布,多项功能优化提升
下一篇
问界M5智驾版V3.3.9.6系统更新发布,多项功能优化提升
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3190次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3402次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3433次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4540次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3811次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码