当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 揭秘字节跳动万卡集群技术:仅用2天完成GPT-3训练,算力利用率超越英伟达Megatron-LM

揭秘字节跳动万卡集群技术:仅用2天完成GPT-3训练,算力利用率超越英伟达Megatron-LM

来源:51CTO.COM 2024-03-20 20:18:18 0浏览 收藏

字节跳动推出的万卡集群技术突破大模型训练效率瓶颈,仅用1.75天即可完成GPT-3规模模型训练。该集群搭载MegaScale生产系统,通过优化算法、通信、操作符和数据流水线等方面,将算力利用率提升至55.2%,超过英伟达Megatron-LM 1.34倍。万卡集群已部署在字节数据中心,支持各种大模型训练,并配备自动故障识别和快速恢复机制,提升训练稳定性。

随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注:

文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。

论文还透露,截止2023年9月,字节已建立起超过1万张卡的Ampere架构GPU(A100/A800)集群,目前正在建设大规模Hopper架构(H100/H800)集群。

适用于万卡集群的生产系统

大模型时代,GPU的重要性已无需赘述。

但大模型的训练,并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别,如何实现高效、稳定的训练,本身就是一个颇具挑战的工程问题。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

第一重挑战:效率。

训练大语言模型并非简单的并行任务,需要在多个GPU之间分布模型,并且这些GPU需要频繁通信才能共同推进训练进程。通信之外,操作符优化、数据预处理和GPU内存消耗等因素,都对算力利用率(MFU)这个衡量训练效率的指标有影响。

MFU是实际吞吐量与理论最大吞吐量之比。

第二重挑战:稳定性。

我们知道,训练大语言模型往往需要花费非常长的时间,这也意味着,训练过程中失败和延迟的现象并不鲜见。

失败的成本是高昂的,因此如何缩短故障恢复时间变得尤为重要。

为了应对这些挑战,字节跳动的研究人员构建了MegaScale,并已将其部署到字节的数据中心中,用以支持各种大模型的训练。

MegaScale是在英伟达Megatron-LM的基础上改进的。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

具体改进包括,算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等:

  • 算法优化:研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制(SWA)和LAMB优化器,来提高训练效率而不牺牲模型的收敛性。
  • 通信重叠:基于对3D并行(数据并行、流水线并行、张量并行)中各个计算单元操作的具体分析,研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟,缩短了模型训练中每一轮的迭代时间。
  • 高效操作符:对GEMM操作符进行了优化,对LayerNorm和GeLU等操作进行了融合,以减少启动多个内核的开销,并优化内存访问模式。
  • 数据流水线优化:通过异步数据预处理和消除冗余的数据加载器,来优化数据预处理和加载,减少GPU空闲时间。
  • 集体通信群初始化:优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下,2048张GPU的集群初始化时间是1047秒,优化后可降至5秒以下;万卡GPU集群的初始化时间则可降至30秒以下。
  • 网络性能调优:分析了3D并行中的机器间流量,设计技术方案提高网络性能,包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。
  • 故障容忍:在万卡集群中,软硬件故障难以避免。研究人员设计了一个训练框架,来实现自动故障识别和快速恢复。具体包括,开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。

论文提到,MegaScale能够自动检测和修复超过90%的软硬件故障。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

实验结果表明,MegaScale在12288个GPU上训练175B大语言模型时,实现了55.2%的MFU,是Megatrion-LM算力利用率的1.34倍。

训练530B大语言模型的MFU对比结果如下:

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

One More Thing

就在这篇技术论文引发讨论之际,字节类Sora产品也传出了新消息:

剪映旗下类似Sora的AI视频工具已经启动邀请内测。

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

看样子地基已经打好,那么对于字节的大模型产品,你期待吗?

论文地址:https://arxiv.org/abs/2402.15627

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
在PHP中正确处理换行字符的方法在PHP中正确处理换行字符的方法
上一篇
在PHP中正确处理换行字符的方法
使用YAML模板创建Kubernetes部署运算符
下一篇
使用YAML模板创建Kubernetes部署运算符
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码