当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相

揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相

来源：机器之心 2024-07-04 22:43:00 0浏览收藏

IT行业相对于一般传统行业，发展更新速度更快，一旦停止了学习，很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习，精进自己的技术，尤其是初学者。今天golang学习网给大家整理了《揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相》，聊聊，我们一起来看看吧！

在 2024 年世界人工智能大会的现场，很多人在一个展台前排队，只为让 AI 大模型给自己在天庭「安排」一个差事。

流程：

提供个人照片
生成仙界形象照（参照《大闹天宫》画风）
交互式剧情选择和交谈环节
基于选择和回答评估 MBTI 人格类型
根据人格类型 "安排" 天庭差事

体验方式：

现场排队
在线体验（扫描下方二维码）
大模型创业公司阶跃星辰公布大招

与上影合作的 AI 互动体验《AI + 大闹天宫》只是阶跃星辰展示大模型魅力的开胃菜。在 WAIC 期间，他们隆重推出了以下大招：

万亿参数 MoE 大模型：Step-2 正式版
千亿参数的多模态大模型：Step-1.5V
图像生成大模型：Step-1X

Step-2 万亿参数大模型

在 3 月份与阶跃星辰首次亮相后，Step-2 已进化至全面接近 GPT-4 的水平，在数理逻辑、编程、中文知识、英文知识和指令遵循等方面表现优异。

Step-1.5V 多模态大模型

基于 Step-2 模型，阶跃星辰开发出了多模态大模型 Step-1.5V，不仅具有强大的感知和视频理解能力，还可根据图像内容进行高级推理（如解答数学题、编写代码、创作诗歌）。

Step-1X 图像生成大模型

《AI + 大闹天宫》中的图像生成由 Step-1X 模型完成，该模型针对中国元素进行了深度优化，并拥有出色的语义对齐和指令遵循能力。

阶跃星辰已建立起涵盖万亿参数 MoE 大模型和多模态大模型的完整大模型矩阵，成为大模型创业公司第一梯队。这得益于他们对 Scaling Law 的坚持以及匹配的技术和资源实力。

从头训练的

Step-2 万亿参数大模型

万亿参数量将显著提升模型在数学、编程等领域的推理能力。Step-2 相比千亿级模型，可解决更为复杂的数理逻辑和编程问题，也得到了基准评测的量化证实。

揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相

此外，它的中英文能力和指令跟随能力也实现了明显提升。
Step-2 之所以表现如此优异，一方面得益于它巨大的参数量，另一方面也得益于它的训练方法。
我们知道，训练 MoE 模型主要有两种方式。一种是 upcycle，即通过重新利用训练过程的中间结果或已经训练好的模型，以更高效和更经济的方式进一步提升模型性能。这种训练方式算力需求低，训练效率高，但训练出的模型往往上限要低一些。比如，在训练 MoE 模型时，如果多个专家模型是通过拷贝和微调相同的基础模型得到的，那么这些专家模型之间可能会存在高度相似性，这种同质化会限制 MoE 模型的性能提升空间。
考虑到这些局限，阶跃星辰选择了另一种方式 —— 完全自主研发，从头开始训练。这种方式虽然训练难度高、算力消耗大，但能获得更高的模型上限。
具体来说，他们首先在 MoE 架构设计方面做了一些创新，包括部分专家共享参数、异构化专家设计等。前者可以确保某些通用能力在多个专家之间共享，但同时每个专家仍然保留其独特性。后者通过设计不同类型的专家模型，使每个专家在特定任务上都有独特的优势，从而增加模型的多样性和整体性能。
基于这些创新，Step-2 不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上大部分的密集模型。
此外，从头训练这样一个万亿参数模型对于系统团队也是很大的考验。好在，阶跃星辰系统团队拥有丰富的系统建设与管理实践经验，这让他们在训练过程中顺利突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，成功完成了 Step-2 的训练。站在 Step-2 肩膀上的 Step-1.5V 多模态大模型
三个月前，阶跃星辰发布了 Step-1V 多模态大模型。最近，随着 Step-2 正式版的亮相，这个多模态大模型也升级到了 1.5 版本。
Step-1.5V 主要侧重多模态理解能力。与之前的版本相比，它的感知能力大大提升，能够理解复杂图表、流程图，准确感知物理空间复杂的几何位置，还能处理高分辨率和极限长宽比的图像。

揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相

此外，它还能理解视频，包括视频中的物体、人物、环境以及整体氛围和人物情绪。

前面提到，在 Step-1.5V 的诞生过程中，Step-2 功不可没。这指的是，在 Step-1.5V 进行 RLHF（基于人类反馈的强化学习）训练过程中，Step-2 是作为监督模型来用的，这相当于 Step-1.5V 有了一个万亿参数的模型当老师。在这个老师的指导下，Step-1.5V 的推理能力大大提升，能够根据图像内容进行各类高级推理任务，如解答数学题、编写代码、创作诗歌等。这也是 OpenAI GPT-4o 最近所展示的能力之一，这项能力让外界对于它的应用前景充满了期待。

多模态的生成能力主要体现在 Step-1X 这个新模型上。与一些同类模型相比，它有更好的语义对齐和指令跟随能力，同时针对中国元素做了深度优化，更适合国人的审美风格。

基于该模型打造的《大闹天宫》AI 互动体验的背后融合了图像理解、风格迁移、图像生成、剧情创作等多种能力，丰富立体地展现了阶跃星辰行业领先的多模态水平。例如，在初始角色生成时，系统首先会判断用户上传的照片是否符合「捏脸」要求，然后用非常《大闹天宫》的语言风格灵活给予反馈。这里就体现了模型的图片理解能力和大语言模型的能力。在大模型技术加持下，这款游戏就让玩家获得了和传统线上 H5 游戏完全不同的互动体验。因为所有的互动问题、用户形象、分析结果都是模型实时学习特征后生成的，真正做到了千人千面和无限剧情的可能。

揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相

这些优异的表现离不开阶跃星辰全链路自研的 DiT 模型架构（OpenAI 的 Sora 也是 DiT 架构）。为了让更多人用上该模型，阶跃星辰给 Step-1X 设计了 600M、2B、8B 三种不同的参数量，以满足不同算力场景的需求。

在 3 月份的亮相活动中，阶跃星辰创始人姜大昕曾明确指出，他认为大模型的演进会经历三个阶段：

在第一个阶段，语言、视觉、声音等各个模态是独立发展的，每个模态的模型专注于学习和表征其特定模态的特点。
在第二个阶段，不同的模态开始走向融合。但这个融合并不彻底，理解和生成任务依然是分开的，这造成模型理解能力强但生成能力弱，或者反之。
在第三个阶段，生成和理解被统一在一个模型里，然后去和机器人充分结合，形成具身智能。接下来，具身智能去主动探索物理世界，然后逐步演变成世界模型，进而实现 AGI。

这也是姜大昕等人从创业之初就在坚持的路线。在这条路上，「万亿参数」和「多模融合」缺一不可，Step-2 和 Step-1.5V、Step-1X 都是他们在这条路上达成的节点。

而且，这些节点是一环套一环的。以 OpenAI 为例，他们在年初发布的视频生成模型 Sora 使用了 OpenAI 的内部工具（很可能是 GPT-4V）进行标注；而 GPT-4V 又是以 GPT-4 相关技术为基础训练出来的。就目前来看，单模态模型的强大能力会为多模态打下基础；多模态的理解又会为生成打下基础。靠着这样的模型矩阵，OpenAI 实现了左脚踩右脚。而阶跃星辰正在国内印证这条路线。

我们期待这家公司给国内大模型领域带来更多惊喜。

到这里，我们也就讲完了《揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于产业,Step-2,阶跃星辰的知识点！

产业 Step-2 阶跃星辰

版本声明

本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除