开源大模型训练框架Megatron-LLaMA来了 32卡训练可加速176%
要点:
淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA,以提高大语言模型训练性能,降低训练成本。
测试显示,相比HuggingFace代码,Megatron-LLaMA在32卡训练上获得176%的加速;在大规模训练上表现出几乎线性的扩展性。
Megatron-LLaMA已在GitHub开源,将持续关注社区发展,与开发者共同推进自适应配置、更多模型支持等方向。
9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA,以让技术开发者们更方便地提升大语言模型训练性能,降低训练成本。
据悉,Megatron-LLaMA是一个基于Megatron-LM的分布式深度学习训练框架,专门用于大规模语言模型LLaMA的训练。LLaMA已经成为开源社区中最杰出的大规模语言模型之一,它集成了BPE词元化、预规范化、旋转嵌入、SwiGLU激活函数、RMSNorm和非绑定嵌入等多项优化技术,在客观和主观评价中都展现出卓越的结果。
项目地址:https://github.com/alibaba/Megatron-LLaMA
LLaMA开发了7B、13B、30B和65B/70B多个模型规模的版本。在开源社区中,也出现了许多基于LLaMA的成功变体,无论是通过连续训练/监督微调还是从零开始训练,都进一步证明了LLaMA在长上下文理解、长上下文生成、代码编写、数学问题求解、工具使用等任务上的卓越能力。
然而,由于大规模语言模型的训练或微调都需要强大的计算资源,开发者自己尝试在LLaMA上实现新的设计往往非常昂贵。Megatron-LM是一个集成了张量并行、流水线并行和序列并行的分布式训练解决方案,可以在训练具有数百亿参数的模型时充分利用硬件资源,使资源利用率远高于基于Huggingface和DeepSpeed实现的公开版LLaMA。但是,原生的Megatron-LM在极大规模下会遭受分布式优化器的通信瓶颈。
测试显示,相比HuggingFace直接获得的代码,Megatron-LLaMA在32卡训练上获得176%的加速效果。在大规模训练上,Megatron-LLaMA相对原生Megatron-LM有几乎线性的扩展性,且对网络稳定性表现出高容忍度。
Megatron-LLaMA改进了DistributedOptimizer的梯度聚合机制,实现梯度通信与计算的并行,从而优化了反向传播流程。
当前Megatron-LLaMA已在GitHub上开源,淘天集团和爱橙科技将共同维护,并积极关注社区发展,与开发者们在自适应配置选择、模型支持等方面进行合作,以推动Megatron和LLaMA生态建设。
Megatron-LLaMA的主要特点如下:
在Megatron-LM中实现了标准的LLaMA,可以按需配置其中的优化技术。未来还将支持Alibi和FlashAttention2等特性。
通过实现高度重叠的通信和计算,提升了通信计算并行性,与DeepSpeed ZeRO Stage2类似,大大减少了GPU内存占用,提高了吞吐量。
提供了分布式检查点保存/恢复等实用工具,加速了训练过程,支持与HDFS等分布式文件系统集成;支持与HuggingFace transformers库的tokenizer集成,方便下游任务迁移。
Megatron-LLaMA使LLaMA模型的大规模训练变得快速、经济高效且具备可扩展性。它降低了训练大模型的门槛,是开源社区一个重要的贡献。
超休大厂转型成功?已经做出百万美金月流水游戏
今年年初开始,许多头部超休厂商表示,传统超休闲游戏的盈利空间正在变少。单靠玩法创新推出爆款来迅速吸量并盈利,已经不太可行。从1月Pocketgamer游戏大会上Voodoo发行负责人AlexShea表示“超休闲已死”,再到SayGamesCEO在2月表示超休厂商必须转型跟进混合休闲,否则只能“出局”,以及Kwalee宣布将开发重点转向混合休闲游戏。站长网2023-08-01 18:04:570000人工智能服务器已占全球1/3:戴尔成第一大巨头
快科技10月19日消息,市场调研机构CounterpointResearch最新发布的2024年第二季度全球AI服务器市场报告。该报告揭示了一个引人注目的趋势:在人工智能技术热潮的推动下,对AI服务器的需求急剧上升,进而促进了整个服务器市场的快速增长。AI服务器收入和市场份额站长网2024-10-19 16:08:450000天涯社区被申请破产 被执行总金额超1051万元
站长之家(ChinaZ.com)2月27日消息:近日,据天眼查App最新消息,天涯社区网络科技股份有限公司(以下简称“天涯社区”)在2月26日被曝新增一则破产审查案件,此次申请的发起人是张鑫,而负责此次案件审查的法院为海南省海口市中级人民法院。根据公开的风险信息,该公司目前存在多条被执行人信息,被执行的总金额已超过1051万元。除此之外,该公司还面临着多个限制消费令和股权冻结信息的压力。站长网2024-02-27 11:31:030000Mujoco3开源:物理仿真器速度更快 稳定性大大提高
DeepMind宣布最新版本的MuJoCo3,该版本引入了加速硬件支持,对CPU进行了性能和内存占用的改进,以及更多灵活的碰撞原语。MuJoCo3支持通过新的MuJoCoXLA(MJX)模块进行加速模拟,可以在GoogleCloudTPU或自有加速硬件上以每秒数百万步的速度运行MuJoCo模拟。MJX通过运行在专门的硬件上,提供独特的性能特点,但可能需要一些模型调整。站长网2023-10-20 10:07:250001AI日报:阿里推多角色一致性框架UniPortrait;腾讯混元上线三款ControlNet插件;苹果研发桌面机器人;Claude推提示词缓存功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里团队推新框架UniPortrait:支持多角色一致性和风格参考站长网2024-08-16 08:30:460000