当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

来源:机器之心 2024-04-25 17:27:30 0浏览 收藏

从现在开始,我们要努力学习啦!今天我给大家带来《元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!

元象发布XVERSE-MoE-A4.2B大模型 , 采用业界最前沿的混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

GPT3、Llama与XVERSE等主流大模型发展遵循规模理论(Scaling Law), 在模型训练和推理的过程中,单次前向、反向计算时,所有参数都被激活,这被称为稠密激活 (densely activated)。 当 模型规模增大时,算力成本 会急剧升高。

随着越来越多的研究人员认为,稀疏激活(sparsely activated)的MoE模型,在增大模型规模时,可不显著增加训练和推理的计算成本,是一种更有效的方法。由于技术较新,目前国内大部分开源模型或学术研究尚未普及。

在元素自研中,使用相同语料训练2.7百万亿token,XVERSE-MoE-A4.2B实际激活参数量4.2B,性能“跳级”超越XVERSE-13B-2,仅计算量,并减少50%训练时间。与多个开源标杆Llama相比,该模型大幅超越Llama2-13B、接近Llama1-65B(下图)。

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

查看多项权威评测

在开源上,元素大模型"全家桶"持续迭代,将国产开源引领至国际一流水平。应用上,元素发挥AI+3D独特技术独特优势,推出大模型3D空间、AIGC工具等一站式解决方案,赋能文娱、旅游、金融等各行各业,在智能客服、创意体验、提效工具等多场景打造领先用户体验。

MoE技术自研与创新

教育部(MoE)是当前业界最前沿的模型框架,由于技术较新,国内开源模型或学术研究尚未普及。元对象自主研发了MoE的高效训练和推理框架,并在三个方向创新:

性能上,针对MoE架构中独特专家路由和权重计算逻辑,研发一套高效融合算子,显著提升了计算效率;针对MoE模型高显存使用和大通信量挑战,设计出计算、通信和显存卸载的重叠操作,有效提高整体处理吞吐量。

架构上,与传统MoE(如Mixtral 8x7B)将每个专家大小等同于标准FFN不同,元象采用更细粒度的专家设计,每个专家大小仅为标准FFN的四分之一,提高了模型灵活性与性能;还将专家分为共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类。共享专家在计算过程中始终保持激活状态,而非共享专家则根据需要选择性激活。这种设计有利于将通用知识压缩至共享专家参数中,减少非共享专家参数间的知识冗余。

训练上,受Switch Transformers、ST-MoE和DeepSeekMoE等启发,元象引入负载均衡损失项,更好均衡专家间的负载;采用路由器z-loss项,确保训练高效和稳定。

架构选择则经过一系列对比实验得出(下图),在 实验3与实验2中,总参数量和激活参数量相同,但前者的细粒度专家设计带来了更高的性能表现。实验4在此基础上,进一步划分共享和非共享两类专家,使得效果显著提升。实验5探索了专家大小等于标准FFN时,引入共享专家的做法,效果不甚理想。

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

对比实验设计方案

综合试验结果(下图),元象最终采用实验4对应的架构设置。展望未来,新近开源的Google Gemma与X(前Twitter)Grok等项目采用了比标准FFN更大的设定,元象也将在后续继续深入探索相关方向探索研,保持技术引领性。

元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型

对比实验效果

免费下载大模型

  • Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A4.2B
  • ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A4.2B
  • Github:https://github.com/xverse-ai/XVERSE-MoE-A4.2B
  • 问询发送:opensource@xverse.cn

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)
上一篇
OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)
新测试基准发布,最强开源Llama 3尴尬了
下一篇
新测试基准发布,最强开源Llama 3尴尬了
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    509次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI边界平台:智能对话、写作、画图,一站式解决方案
    边界AI平台
    探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
    27次使用
  • 讯飞AI大学堂免费AI认证证书:大模型工程师认证,提升您的职场竞争力
    免费AI认证证书
    科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
    51次使用
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    176次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    252次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    194次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码