微软推ZeRO++新系统:减少大模型训练时间和成本
微软研究人员推出了名为ZeRO 的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。
ZeRO 建立在现有的 ZeRO 优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。
像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO 引入了通信优化策略,以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。

ZeRO优化系列包括ZeRO-Inference,它使用GPU的集体内存和计算能力,将模型状态分割在多个GPU之间。然而,在训练过程中,ZeRO可能会产生较高的通信开销。ZeRO 通过整合三组通信优化来解决这个问题:量化权重通信(qwZ)、分层权重分割(hpZ)和量化梯度通信(qgZ)。
为了减少参数通信量,ZeRO 对权重进行量化,利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销,ZeRO 通过在每台机器上保持完整的模型副本,以 GPU 内存换取通信。梯度通信方面,ZeRO 引入了一种新的量化梯度通信范式 qgZ,可以减少跨节点的流量和延迟。
这些通信优化大大减少了通信量。与ZeRO相比,ZeRO 实现了减少高达4倍的通信量,提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,ZeRO 相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中,与ZeRO-3相比,ZeRO 实现了平均2倍的加速,使得大模型训练在更多种类的集群上更为可行。
ZeRO 不仅限于训练场景,还可应用于对话模型中使用的人类反馈强化学习(RLHF)训练。通过将ZeRO 与DeepSpeed-Chat集成,RLHF训练可以获得更好的生成和训练吞吐量,生成吞吐量提高了高达2.25倍,训练吞吐量提高了1.26倍,超过了ZeRO。
DeepSpeed已经发布了ZeRO ,以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度,减少通信开销,并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO 更有效地训练像ChatGPT这样的模型,并在AI领域探索新的可能性。
Google推出富有创意的新顶级域名 .ing和.meme
据国外媒体报道,日前Google注册局宣布推出两个富有创意的新顶级域名:.ing和.meme,预计将吸引大量注册。站长网2023-11-01 14:23:460001苹果为双11抢销量拼了!iPhone 16系列天猫官方旗舰店狂减1600元
快科技10月20日消息,一年一度的双11电商节已拉开大幕,各家手机厂商为了在双11期间提升销量,推出各种优惠降价活动,配合电商平台补贴,一些旗舰新机来到史低价。今日,AppleStore官方旗舰店公布天猫双11优惠,宣布10月21日晚8点现货开卖,iPhone16系列至高优惠1600元。站长网2024-10-20 13:59:500000AMD AI 业务展望提升,股价仍受挫
划重点:-💼AMD提高MI300人工智能加速器产品的预期收入至40亿美元以上,但股价仍下跌。-💰第一季度净收入为1.23亿美元,符合预期,但股价表现疲弱。-📉尽管数据中心业务增长强劲,但游戏业务收入下降,竞争压力加剧。站长网2024-05-02 22:47:31000070%生成式AI初创公司依赖谷歌云基础设施和AI功能
日前,Alphabet在其2023年第二季度财报电话会议强调了生成式人工智能在公司云和产品中带来的效益。首席执行官SundarPichai强调,超过70%的生成式AI初创公司依赖谷歌的云基础设施和AI功能。这表明了新兴公司对下一代技术的吸引力,这些公司希望构建由GoogleBard和其他模型支持的新服务。站长网2023-07-26 11:41:250000外国博主,还能“坐地吸金”吗?
“给外国人一点小小的亚运震撼。”随着国庆假期的结束,杭州亚运会也落下了帷幕。这场长达15日的盛会,外国人作为其中的显眼包,让不少杭州人体验了一把“无痛出国”,“外国人来亚运会进货”“还不如一个外国人会讲价”“在哪里能偶遇中东富豪”等话题也频频在社交平台刷新存在感。站长网2023-10-09 17:51:380002