字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。
来自字节和北大的一篇新论文在此时吸引关注:
文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。
具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。
在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。
论文还透露,截止2023年9月,字节已建立起超过1万张卡的Ampere架构GPU(A100/A800)集群,目前正在建设大规模Hopper架构(H100/H800)集群。
适用于万卡集群的生产系统
大模型时代,GPU的重要性已无需赘述。
但大模型的训练,并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别,如何实现高效、稳定的训练,本身就是一个颇具挑战的工程问题。
第一重挑战:效率。
训练大语言模型并非简单的并行任务,需要在多个GPU之间分布模型,并且这些GPU需要频繁通信才能共同推进训练进程。通信之外,操作符优化、数据预处理和GPU内存消耗等因素,都对算力利用率(MFU)这个衡量训练效率的指标有影响。
MFU是实际吞吐量与理论最大吞吐量之比。
第二重挑战:稳定性。
我们知道,训练大语言模型往往需要花费非常长的时间,这也意味着,训练过程中失败和延迟的现象并不鲜见。
失败的成本是高昂的,因此如何缩短故障恢复时间变得尤为重要。
为了应对这些挑战,字节跳动的研究人员构建了MegaScale,并已将其部署到字节的数据中心中,用以支持各种大模型的训练。
MegaScale是在英伟达Megatron-LM的基础上改进的。
具体改进包括,算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等:
算法优化:研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制(SWA)和LAMB优化器,来提高训练效率而不牺牲模型的收敛性。
通信重叠:基于对3D并行(数据并行、流水线并行、张量并行)中各个计算单元操作的具体分析,研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟,缩短了模型训练中每一轮的迭代时间。
高效操作符:对GEMM操作符进行了优化,对LayerNorm和GeLU等操作进行了融合,以减少启动多个内核的开销,并优化内存访问模式。
数据流水线优化:通过异步数据预处理和消除冗余的数据加载器,来优化数据预处理和加载,减少GPU空闲时间。
集体通信群初始化:优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下,2048张GPU的集群初始化时间是1047秒,优化后可降至5秒以下;万卡GPU集群的初始化时间则可降至30秒以下。
网络性能调优:分析了3D并行中的机器间流量,设计技术方案提高网络性能,包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。
故障容忍:在万卡集群中,软硬件故障难以避免。研究人员设计了一个训练框架,来实现自动故障识别和快速恢复。具体包括,开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。
论文提到,MegaScale能够自动检测和修复超过90%的软硬件故障。
实验结果表明,MegaScale在12288个GPU上训练175B大语言模型时,实现了55.2%的MFU,是Megatrion-LM算力利用率的1.34倍。
训练530B大语言模型的MFU对比结果如下:
One More Thing
就在这篇技术论文引发讨论之际,字节类Sora产品也传出了新消息:
剪映旗下类似Sora的AI视频工具已经启动邀请内测。
看样子地基已经打好,那么对于字节的大模型产品,你期待吗?
论文地址:
https://arxiv.org/abs/2402.15627
—完—
中国移动发布九天AI大模型 聚焦政务、客服领域
7月8日,中国移动正式发布了九天·海算政务大模型和九天·客服大模型。九天·海算政务大模型是中国移动基于近年来在数字政府建设方面积累的丰富经验所打造的面向政务领域的行业大模型。通过依托九天·海算政务大模型,政务服务系统将具备强大的政务事项理解能力、多维度的信息关联能力以及面向复杂事项和复杂流程的多元交互能力。站长网2023-07-10 17:07:090000B站开展暑期未成年人网络环境整治 打击有害内容隐形变异等问题
昨日,B站表示,为切实加强未成年人网络保护,营造更加健康安全的网络环境,根据中央网信办的统一部署,即日起至8月底,将积极配合开展“清朗·2023年暑期未成年人网络环境整治”专项行动。本次治理将重点围绕专项要求的七个方面问题展开,站内将部署专业人力,严厉打击以下行为:站长网2023-06-29 12:13:270001男子高铁吸烟狂言:不差钱随便罚 工作不顺心情郁闷
近日,一则关于男子在高铁上违规吸烟并嚣张叫嚣的新闻引发了广泛关注。据报道,本月26日,在从杭州东开往厦门的G1679次列车上,一名男子公然在车厢连接处吸烟,严重违反了高铁禁烟的规定。0000HuggingFace发布开源极简Rust ML框架 运行速度极快
HuggingFace最近发布了一款新颖的小型RustML框架——candle,运行速度极快,支持多种强大模型。它提供了对GPU的支持,并且具有优化的CPU后端,可以在浏览器中运行。Candle还包含了多个预训练模型和示例,如语音识别模型、通用LLM、计算机视觉模型等。项目地址:https://github.com/huggingface/candle站长网2023-08-24 11:43:590006百度发布小度学习机K16:搭载文心大模型 售价2299元
百度旗下人工智能语音助手小度正式发布小度学习机K16,K16是一款全面升级的学习机器人产品。目前,小度学习机K16已经在小度商城及各大电商平台开启预售,售价2299元。它具有以下几个方面的升级:站长网2024-01-09 09:08:110001