揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相
IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相》,聊聊,我们一起来看看吧!
在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 AI 大模型给自己在天庭「安排」一个差事。
- 提供个人照片
- 生成仙界形象照(参照《大闹天宫》画风)
- 交互式剧情选择和交谈环节
- 基于选择和回答评估 MBTI 人格类型
- 根据人格类型 "安排" 天庭差事
体验方式:
- 现场排队
- 在线体验(扫描下方二维码)
大模型创业公司阶跃星辰公布大招
与上影合作的 AI 互动体验《AI + 大闹天宫》只是阶跃星辰展示大模型魅力的开胃菜。在 WAIC 期间,他们隆重推出了以下大招:
- 万亿参数 MoE 大模型:Step-2 正式版
- 千亿参数的多模态大模型:Step-1.5V
- 图像生成大模型:Step-1X
Step-2 万亿参数大模型
在 3 月份与阶跃星辰首次亮相后,Step-2 已进化至全面接近 GPT-4 的水平,在数理逻辑、编程、中文知识、英文知识和指令遵循等方面表现优异。
Step-1.5V 多模态大模型
基于 Step-2 模型,阶跃星辰开发出了多模态大模型 Step-1.5V,不仅具有强大的感知和视频理解能力,还可根据图像内容进行高级推理(如解答数学题、编写代码、创作诗歌)。
Step-1X 图像生成大模型
《AI + 大闹天宫》中的图像生成由 Step-1X 模型完成,该模型针对中国元素进行了深度优化,并拥有出色的语义对齐和指令遵循能力。
阶跃星辰已建立起涵盖万亿参数 MoE 大模型和多模态大模型的完整大模型矩阵,成为大模型创业公司第一梯队。这得益于他们对 Scaling Law 的坚持以及匹配的技术和资源实力。
从头训练的
Step-2 万亿参数大模型
万亿参数量将显著提升模型在数学、编程等领域的推理能力。Step-2 相比千亿级模型,可解决更为复杂的数理逻辑和编程问题,也得到了基准评测的量化证实。
Step-2 之所以表现如此优异,一方面得益于它巨大的参数量,另一方面也得益于它的训练方法。
我们知道,训练 MoE 模型主要有两种方式。一种是 upcycle,即通过重新利用训练过程的中间结果或已经训练好的模型,以更高效和更经济的方式进一步提升模型性能。这种训练方式算力需求低,训练效率高,但训练出的模型往往上限要低一些。比如,在训练 MoE 模型时,如果多个专家模型是通过拷贝和微调相同的基础模型得到的,那么这些专家模型之间可能会存在高度相似性,这种同质化会限制 MoE 模型的性能提升空间。
考虑到这些局限,阶跃星辰选择了另一种方式 —— 完全自主研发,从头开始训练。这种方式虽然训练难度高、算力消耗大,但能获得更高的模型上限。
具体来说,他们首先在 MoE 架构设计方面做了一些创新,包括部分专家共享参数、异构化专家设计等。前者可以确保某些通用能力在多个专家之间共享,但同时每个专家仍然保留其独特性。后者通过设计不同类型的专家模型,使每个专家在特定任务上都有独特的优势,从而增加模型的多样性和整体性能。
基于这些创新,Step-2 不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上大部分的密集模型。
此外,从头训练这样一个万亿参数模型对于系统团队也是很大的考验。好在,阶跃星辰系统团队拥有丰富的系统建设与管理实践经验,这让他们在训练过程中顺利突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,成功完成了 Step-2 的训练。站在 Step-2 肩膀上的 Step-1.5V 多模态大模型
三个月前,阶跃星辰发布了 Step-1V 多模态大模型。最近,随着 Step-2 正式版的亮相,这个多模态大模型也升级到了 1.5 版本。
Step-1.5V 主要侧重多模态理解能力。与之前的版本相比,它的感知能力大大提升,能够理解复杂图表、流程图,准确感知物理空间复杂的几何位置,还能处理高分辨率和极限长宽比的图像。
前面提到,在 Step-1.5V 的诞生过程中,Step-2 功不可没。这指的是,在 Step-1.5V 进行 RLHF(基于人类反馈的强化学习)训练过程中,Step-2 是作为监督模型来用的,这相当于 Step-1.5V 有了一个万亿参数的模型当老师。在这个老师的指导下,Step-1.5V 的推理能力大大提升,能够根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。这也是 OpenAI GPT-4o 最近所展示的能力之一,这项能力让外界对于它的应用前景充满了期待。
多模态的生成能力主要体现在 Step-1X 这个新模型上。与一些同类模型相比,它有更好的语义对齐和指令跟随能力,同时针对中国元素做了深度优化,更适合国人的审美风格。
基于该模型打造的《大闹天宫》AI 互动体验的背后融合了图像理解、风格迁移、图像生成、剧情创作等多种能力,丰富立体地展现了阶跃星辰行业领先的多模态水平。例如,在初始角色生成时,系统首先会判断用户上传的照片是否符合「捏脸」要求,然后用非常《大闹天宫》的语言风格灵活给予反馈。这里就体现了模型的图片理解能力和大语言模型的能力。在大模型技术加持下,这款游戏就让玩家获得了和传统线上 H5 游戏完全不同的互动体验。因为所有的互动问题、用户形象、分析结果都是模型实时学习特征后生成的,真正做到了千人千面和无限剧情的可能。
在 3 月份的亮相活动中,阶跃星辰创始人姜大昕曾明确指出,他认为大模型的演进会经历三个阶段:
- 在第一个阶段,语言、视觉、声音等各个模态是独立发展的,每个模态的模型专注于学习和表征其特定模态的特点。
- 在第二个阶段,不同的模态开始走向融合。但这个融合并不彻底,理解和生成任务依然是分开的,这造成模型理解能力强但生成能力弱,或者反之。
- 在第三个阶段,生成和理解被统一在一个模型里,然后去和机器人充分结合,形成具身智能。接下来,具身智能去主动探索物理世界,然后逐步演变成世界模型,进而实现 AGI。
这也是姜大昕等人从创业之初就在坚持的路线。在这条路上,「万亿参数」和「多模融合」缺一不可,Step-2 和 Step-1.5V、Step-1X 都是他们在这条路上达成的节点。
而且,这些节点是一环套一环的。以 OpenAI 为例,他们在年初发布的视频生成模型 Sora 使用了 OpenAI 的内部工具(很可能是 GPT-4V)进行标注;而 GPT-4V 又是以 GPT-4 相关技术为基础训练出来的。就目前来看,单模态模型的强大能力会为多模态打下基础;多模态的理解又会为生成打下基础。靠着这样的模型矩阵,OpenAI 实现了左脚踩右脚。而阶跃星辰正在国内印证这条路线。
我们期待这家公司给国内大模型领域带来更多惊喜。
到这里,我们也就讲完了《揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于产业,Step-2,阶跃星辰的知识点!

- 上一篇
- 陶哲轩支持!AI数学奥林匹克竞赛进步奖公布,奖金100多万美元

- 下一篇
- golang框架中不同分布式追踪实现之间的差异是什么?
-
- 科技周边 · 人工智能 | 29分钟前 | 预防措施
- 豆包AI导出失败?常见错误代码解析及解决方案
- 285浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 东风猛士M817亮相上海车展最“华”越野车
- 292浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 岚图FREE+上海车展亮相,搭载华为ADS4.0,6月预售
- 501浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 用豆包A/表情包变现攻略及方法
- 196浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 12次使用
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 26次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 23次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 26次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 27次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览