专为训练Llama 3,Meta 4.9万张H100集群细节公布
本篇文章给大家分享《专为训练Llama 3,Meta 4.9万张H100集群细节公布》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
生成式大模型已经在人工智能领域引发了重大变革,尽管人们对实现通用人工智能(AGI)的希望日益增加,但是训练和部署大模型所需的算力也愈发庞大。
刚刚,Meta 宣布推出两个 24k GPU 集群(共 49152 个 H100),标志着 Meta 为人工智能的未来做出了一笔重大的投资。
这是 Meta 雄心勃勃的基础设施规划中的一部分。到 2024 年底,Meta计划扩大其基础设施,将包括 350000 个 NVIDIA H100 GPU,这将使其计算能力相当于近 600000 个H100。Meta致力于不断拓展基础设施建设,以满足未来需求。
Meta强调:「我们坚定地支持开放计算和开源技术。我们已经在Grand Teton、OpenRack和PyTorch的基础上构建了这些计算集群,并将继续推动整个行业的开放创新。我们将利用这些计算资源集群来训练Llama 3。」
图灵奖得主、Meta 首席科学家 Yann LeCun 也发推强调了这一点。
Meta分享了新集群在硬件、网络、存储、设计、性能和软件方面的详细信息,旨在为各种人工智能工作负载提供高吞吐量和高可靠性。
集群概览
Meta 的长期愿景是构建开放且负责任的通用人工智能,以便让每个人都能广泛使用并从中受益。
2022 年,Meta 首次分享了一个 AI 研究超级集群 (RSC) 的详细信息,该集群配备 16000 个 NVIDIA A100 GPU。RSC 在 Llama 和 Llama 2 的开发以及计算机视觉、NLP、语音识别、图像生成、编码等方向的高级人工智能模型的开发中发挥了重要作用。
Meta 最新推出的人工智能集群是在前一阶段的成功和教训基础上构建的。Meta 强调致力于打造全方位人工智能系统,专注于提升研究人员和开发人员的体验和工作效率。
两个新集群中采用了高性能网络结构,结合关键的存储决策和每个集群中的24576个NVIDIA Tensor Core H100 GPU,使得这两个集群能够支持比RSC集群更大、更复杂的模型。
网络
Meta 每天处理数百万亿个人工智能模型的运行。大规模提供人工智能模型服务需要高度先进且灵活的基础设施。
为了优化人工智能研究人员的端到端体验,同时确保 Meta 的数据中心高效运行,Meta 基于 Arista 7800 以及 Wedge400 和 Minipack2 OCP 机架交换机构建了一个采用 RoCE 协议(一种集群网络通信协议,实现在以太网上进行远程直接内存访问(RDMA))的网络结构集群。另一个集群则采用 NVIDIA Quantum2 InfiniBand 结构。这两种解决方案都互连 400 Gbps 端点。
这两个新集群可以用来评估不同类型的互连对于大规模训练的适用性和可扩展性,帮助 Meta 了解未来如何设计和构建更大规模的集群。通过对网络、软件和模型架构的仔细协同设计,Meta 成功地将 RoCE 和 InfiniBand 集群用于大型 GenAI 工作负载,而没有任何网络瓶颈。
计算
这两个集群都是使用 Grand Teton 构建的,Grand Teton 是 Meta 内部设计的开放 GPU 硬件平台。
Grand Teton 以多代人工智能系统为基础,将电源、控制、计算和结构接口集成到单个机箱中,以实现更好的整体性能、信号完整性和热性能。它以简化的设计提供快速的可扩展性和灵活性,使其能够快速部署到数据中心队列中并轻松进行维护和扩展。
存储
存储在人工智能训练中发挥着重要作用,但却是最少被谈论的方面之一。
随着时间的推移,GenAI 训练工作变得更加多模态,消耗大量图像、视频和文本数据,对数据存储的需求迅速增长。
Meta 新集群的存储部署通过用户空间中的本地 Linux 文件系统 (FUSE) API 来满足 AI 集群的数据和检查点需求,该 API 由 Meta 的「Tectonic」分布式存储解决方案提供支持。这种解决方案使数千个 GPU 能够以同步方式保存和加载检查点,同时还提供数据加载所需的灵活且高吞吐量的 EB 级存储。
Meta 还与 Hammerspace 合作,共同开发并落地并行网络文件系统(NFS)部署。Hammerspace 使工程师能够使用数千个 GPU 对作业执行交互式调试。
性能
Meta 构建大规模人工智能集群的原则之一是同时最大限度地提高性能和易用性。这是创建一流人工智能模型的重要原则。
Meta 在突破人工智能系统的极限时,测试扩展设计能力的最佳方法就是简单构建一个系统,然后优化并实际测试(虽然模拟器有帮助,但也只能到此为止)。
此次设计,Meta 比较了小型集群和大型集群的性能,以了解瓶颈所在。下显示了当大量 GPU 以预期性能最高的通信大小相互通信时,AllGather 集体性能(以 0-100 范围内的标准化带宽表示)。
与优化的小型集群性能相比,大型集群的开箱即用性能最初很差且不一致。为了解决这个问题,Meta 对内部作业调度程序通过网络拓扑感知来调的方式进行了一些更改,这带来了延迟优势并最大限度地减少了流向网络上层的流量。
Meta 还结合 NVIDIA Collective Communications Library (NCCL) 更改优化了网络路由策略,以实现最佳的网络利用率。这有助于推动大型集群像小型集群一样实现出色的预期性能。
从图中我们可以看到,小集群性能(整体通信带宽和利用率)开箱即达到 90%+,但未经优化的大型集群性能利用率非常低,从 10% 到 90% 不等。在优化整个系统(软件、网络等)后,我们看到大型集群性能恢复到理想的 90%+ 范围。
除了针对内部基础设施的软件更改之外,Meta 还与编写训练框架和模型的团队密切合作,以适应不断发展的基础设施。例如,NVIDIA H100 GPU 开启了利用 8 位浮点 (FP8) 等新数据类型进行训练的可能性。充分利用更大的集群需要对额外的并行化技术和新的存储解决方案进行投资,这提供了在数千个级别上高度优化检查点以在数百毫秒内运行的机会。
Meta 还认识到可调试性是大规模训练的主要挑战之一。大规模识别出导致整个训练停滞的出错 GPU 非常困难。Meta 正在构建诸如异步调试或分布式集体飞行记录器之类的工具,以公开分布式训练的细节,并帮助以更快、更简单的方式识别出现的问题。
理论要掌握,实操不能落!以上关于《专为训练Llama 3,Meta 4.9万张H100集群细节公布》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- RabbitMQ 消费者性能 - 预取与并发

- 下一篇
- win7显示蓝屏解决方法
-
- 科技周边 · 人工智能 | 4小时前 |
- 小米SU7订单18万未交付,月产能暴增6倍
- 361浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | iPhone17Pro 天蓝色 M4MacBookAir
- iPhone17Pro/ProMax弃钛金属,拥抱天蓝色
- 272浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 问界M8快报:MAX+版最火,BAL车主热捧
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 港大与Adobe联手推出PixelFlow图像生成模型
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 | 摩尔线程 招聘诈骗 @mthreads.com 官方客服 法律责任
- 摩尔线程重磅声明发布
- 406浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- 玛莎拉蒂GT2Stradale国内首秀售414.5万
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 16小时前 |
- 美股反弹艰难,三大指数涨跌不一,英伟达跌3%
- 301浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 29次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 43次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 40次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 51次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 43次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览