当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

来源:51CTO.COM 2023-06-07 20:11:55 0浏览 收藏
推广推荐
免费电影APP ➜
支持 PC / 移动端,安全直达

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

大模型时代,什么最重要?

LeCun曾经给出的答案是:开源。

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

当Meta的LLaMA的代码在GitHub上被泄露时,全球的开发者们都可以访问这个第一个达到GPT水平的LLM。

接下来,各种各样的LLM给AI模型开源赋予了各种各样的角度。

LLaMA给斯坦福的Alpac和Vicuna等模型铺设了道路,搭好了舞台,让他们成为了开源的领头羊。

而就在此时,猎鹰「Falcon」又杀出了重围。

Falcon 猎鹰

「Falcon」由阿联酋阿布扎比的技术创新研究所(TII)开发,从性能上看,Falcon比LLaMA的表现更好。

目前,「Falcon」有三个版本——1B、7B和40B。

TII表示,Falcon迄今为止最强大的开源语言模型。其最大的版本,Falcon 40B,拥有400亿参数,相对于拥有650亿参数的LLaMA来说,规模上还是小了一点。

规模虽小,性能能打。

先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为,「Falcon」的发布将打破LLM的获取方式,并让研究人员和创业者能够以此提出最具创新性的使用案例。

FalconLM的两个版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名,而Meta的LLaMA位于第三。

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

值得一提的是,Hugging Face是通过四个当前比较流形的基准——AI2 Reasoning Challenge,HellaSwag,MMLU和TruthfulQA对这些模型进行评估的。

尽管「Falcon」的论文目前还没公开发布,但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。

研究人员透露,「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。

我们都知道的是,LLM对训练数据的质量非常敏感,这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。

目的就是,在过滤和去重的基础上从网络中提取高质量的内容。

目前,TII已经发布了精炼的网络数据集,这是一个经过精心过滤和去重的数据集。实践证明,非常有效。

仅用这个数据集训练的模型可以和其它LLM打个平手,甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

此外,Falcon模型也具有多语言的能力。

它理解英语、德语、西班牙语和法语,并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。

Falcon 40B还是继H2O.ai模型发布后,第二个真正开源的模型。然而,由于H2O.ai并未在此排行榜上与其他模型进行基准对比,所以这两个模型还没上过擂台。

而回过头看LLaMA,尽管它的代码在GitHub上可以获取,但它的权重(weights)从未开源。

这意味着该模型的商业使用受到了一定程度的限制。

而且,LLaMA的所有版本都依赖于原始的LLaMA许可证,这就使得LLaMA不适合小规模的商业应用。

在这一点上,「Falcon」又拔得了头筹。

唯一免费的商用大模型!

Falcon是目前唯一的可以免费商用的开源模型。

在早期,TII要求,商业用途使用Falcon,如果产生了超过100万美元以上的可归因收入,将会收取10%的「使用税」。

可是财大气粗的中东土豪们没过多长时间就取消了这个限制。

至少到目前为止,所有对Falcon的商业化使用和微调都不会收取任何费用。

土豪们表示,现在暂时不需要通过这个模型挣钱。

而且,TII还在全球征集商用化方案。

对于有潜力的科研和商业化方案,他们还会提供更多的「训练算力支持」,或者提供进一步的商业化机会。

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

项目提交邮箱:Submissions.falconllm@tii.ae

这简直就是在说:只要项目好,模型免费用!算力管够!钱不够我们还能给你凑!

对于初创企业来说,这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。

高质量的训练数据

根据开发团队称,FalconLM 竞争优势的一个重要方面是训练数据的选择。

研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。

在彻底清理多余重复内容后,保留了 5 万亿的token——足以训练强大的语言模型。

40B的Falcon LM使用1万亿个token进行训练, 7B版本的模型训练token达到 1.5 万亿。

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

(研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据)

更加可控的训练成本

TII称,与GPT-3相比,Falcon在只使用75%的训练计算预算的情况下,就实现了显著的性能提升。

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face

而且在推断(Inference)时只需要只需要20%的计算时间。

Falcon的训练成本,只相当于Chinchilla的40%和PaLM-62B的80% 。

成功实现了计算资源的高效利用。

今天关于《碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于开源,AI的内容请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
整个WWDC都没听到“AI” 苹果CEO库克直接回应了整个WWDC都没听到“AI” 苹果CEO库克直接回应了
上一篇
整个WWDC都没听到“AI” 苹果CEO库克直接回应了
最强扫拖机器人非它莫属!科沃斯地宝X1S PRO全能基站彰显旗舰本色
下一篇
最强扫拖机器人非它莫属!科沃斯地宝X1S PRO全能基站彰显旗舰本色
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3210次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3424次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3453次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4561次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3831次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码