字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

站长网2024-03-01 15:02:354阅

随着对Sora技术分析的展开，AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注:

文章披露，字节搭建起的万卡集群，能在1.75天内完成GPT-3规模模型（175B）的训练。

具体来说，字节提出了一个名为MegaScale的生产系统，旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

在12288块GPU上训练1750亿参数大语言模型时，MegaScale实现了55.2%的算力利用率（MFU），是英伟达Megatron-LM的1.34倍。

论文还透露，截止2023年9月，字节已建立起超过1万张卡的Ampere架构GPU（A100/A800）集群，目前正在建设大规模Hopper架构(H100/H800)集群。

适用于万卡集群的生产系统

大模型时代，GPU的重要性已无需赘述。

但大模型的训练，并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别，如何实现高效、稳定的训练，本身就是一个颇具挑战的工程问题。

第一重挑战:效率。

训练大语言模型并非简单的并行任务，需要在多个GPU之间分布模型，并且这些GPU需要频繁通信才能共同推进训练进程。通信之外，操作符优化、数据预处理和GPU内存消耗等因素，都对算力利用率（MFU）这个衡量训练效率的指标有影响。

MFU是实际吞吐量与理论最大吞吐量之比。

第二重挑战:稳定性。

我们知道，训练大语言模型往往需要花费非常长的时间，这也意味着，训练过程中失败和延迟的现象并不鲜见。

失败的成本是高昂的，因此如何缩短故障恢复时间变得尤为重要。

为了应对这些挑战，字节跳动的研究人员构建了MegaScale，并已将其部署到字节的数据中心中，用以支持各种大模型的训练。

MegaScale是在英伟达Megatron-LM的基础上改进的。

具体改进包括，算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等:

算法优化:研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制（SWA）和LAMB优化器，来提高训练效率而不牺牲模型的收敛性。

通信重叠:基于对3D并行（数据并行、流水线并行、张量并行）中各个计算单元操作的具体分析，研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟，缩短了模型训练中每一轮的迭代时间。

高效操作符:对GEMM操作符进行了优化，对LayerNorm和GeLU等操作进行了融合，以减少启动多个内核的开销，并优化内存访问模式。

数据流水线优化:通过异步数据预处理和消除冗余的数据加载器，来优化数据预处理和加载，减少GPU空闲时间。

集体通信群初始化:优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下，2048张GPU的集群初始化时间是1047秒，优化后可降至5秒以下;万卡GPU集群的初始化时间则可降至30秒以下。

网络性能调优:分析了3D并行中的机器间流量，设计技术方案提高网络性能，包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。

故障容忍:在万卡集群中，软硬件故障难以避免。研究人员设计了一个训练框架，来实现自动故障识别和快速恢复。具体包括，开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。

论文提到，MegaScale能够自动检测和修复超过90%的软硬件故障。

实验结果表明，MegaScale在12288个GPU上训练175B大语言模型时，实现了55.2%的MFU，是Megatrion-LM算力利用率的1.34倍。

训练530B大语言模型的MFU对比结果如下:

One More Thing

就在这篇技术论文引发讨论之际，字节类Sora产品也传出了新消息:

剪映旗下类似Sora的AI视频工具已经启动邀请内测。

看样子地基已经打好，那么对于字节的大模型产品，你期待吗?

论文地址:

https://arxiv.org/abs/2402.15627

—完—

字节万卡集群技术细节公开2天搞定GPT3训练算力利用率超英伟达MegatronLM

0004

评论列表

共(0)条

相关推荐

站长资讯
Oculus 创始人称苹果首款头显「非常好」功能远远超过竞争对手
WSJ上周五概述了苹果长期传言中的AR/VR头戴式设备项目，证实了之前由彭博社的MarkGurman和TheInformation的WayneMa报道的几个细节。
站长网2023-05-15 14:01:57
0000
站长资讯
2024，超长知识视频站上抖音C位
2024年，抖音发展势头最猛、成长最快、潜力最大的内容类型是什么?卡思认为是超长知识视频。
站长网2024-12-26 17:26:24
0000
7月国产网络游戏版号下发共105款游戏获批过审
今日，国家新闻出版署发布7月国产网络游戏审批信息，共105款游戏获批。其中包括了《欢乐搭方块》、《鬼谷八荒》移动端、《三国杀：一将成名》、《乂闻录：轮回》移动端等。
站长网站长资讯2024-07-22 18:50:27
0000
失业潮或在路上！IBM计划用AI取代7800个岗位
快科技5月2日消息，近日，IBM首席执行官阿尔温德克里希纳在接受采访时表示，公司将暂停招聘，且在未来数年间，计划使用人工智能取代约7800个工作岗位。根据克里希纳的说法，在未来五年间，将有30%的，非面向客户的岗位可能被人工智能或自动化所取代。这导致IBM已经暂停或放缓人力资源等后台职能部门的招聘。值得一提的是，目前已经有国内外企业开始尝试使用人工智能取代诸如编辑、美术等岗位的工作人员。
站长网站长资讯2023-05-02 10:27:22
0000
逃离 “常规卷”，扎进 “海外拼”，国外打工Vlog能成新的流量密码吗？
@丹妹在纽约高二就勇闯纽约，为挣学费白天忙生计晚上啃书本，硬生生把自己活成了励志大女主;@李湫川毅然抛下两万月薪的北漂工作，跑到澳洲樱桃厂流水线疗愈焦虑;@二和明天早睡早起化身韩剧女主，独自一人来到韩国偏僻小地的便利店打工……在这个万物皆可“云体验”的互联网时代，有一群人把镜头怼向了自己实打实的国外打工日常，悄然在短视频赛道掀起一阵别样热潮。
站长网站长资讯2024-12-13 14:04:22
0000