微软推ZeRO++新系统:减少大模型训练时间和成本
微软研究人员推出了名为ZeRO 的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。
ZeRO 建立在现有的 ZeRO 优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。
像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO 引入了通信优化策略,以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。
ZeRO优化系列包括ZeRO-Inference,它使用GPU的集体内存和计算能力,将模型状态分割在多个GPU之间。然而,在训练过程中,ZeRO可能会产生较高的通信开销。ZeRO 通过整合三组通信优化来解决这个问题:量化权重通信(qwZ)、分层权重分割(hpZ)和量化梯度通信(qgZ)。
为了减少参数通信量,ZeRO 对权重进行量化,利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销,ZeRO 通过在每台机器上保持完整的模型副本,以 GPU 内存换取通信。梯度通信方面,ZeRO 引入了一种新的量化梯度通信范式 qgZ,可以减少跨节点的流量和延迟。
这些通信优化大大减少了通信量。与ZeRO相比,ZeRO 实现了减少高达4倍的通信量,提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,ZeRO 相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中,与ZeRO-3相比,ZeRO 实现了平均2倍的加速,使得大模型训练在更多种类的集群上更为可行。
ZeRO 不仅限于训练场景,还可应用于对话模型中使用的人类反馈强化学习(RLHF)训练。通过将ZeRO 与DeepSpeed-Chat集成,RLHF训练可以获得更好的生成和训练吞吐量,生成吞吐量提高了高达2.25倍,训练吞吐量提高了1.26倍,超过了ZeRO。
DeepSpeed已经发布了ZeRO ,以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度,减少通信开销,并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO 更有效地训练像ChatGPT这样的模型,并在AI领域探索新的可能性。
忍不了“穷鬼减肥”,年轻人网上抢“神药”
为体重苦恼的年轻人,正在尝试一种新捷径——“穷鬼”减肥法。所谓“穷鬼”减肥法,指的是年轻人通过代入“穷鬼”身份,严格控制每顿饭的开销,倒逼自己降低高脂高油食物摄入的花式减肥法。“因为穷,一个月瘦了18斤。”小红书博主“八千步”发帖称,一顿成本3块多的糙米饭和鸡胸肉,既省钱又掉秤。站长网2024-12-17 14:06:110000春晚回应吉祥物被质疑是AI合成:设计师一笔一笔画的
2024年春晚吉祥物“龙辰辰”的设计引起了广泛关注和争议。不少网友质疑其是否为AI合成的结果。针对这些质疑,春晚官方进行了回应,表示“龙辰辰”确实是设计师一笔一笔画的,而不是AI合成的。他们强调了设计师在创造这个形象时所付出的努力和时间,从创意初期的各种形态选择到最终版本的确定,经历了多次修改和投票。0000法院通报2614万恶意竞拍6个9手机靓号 罚款8万元
今日,镇江经济开发区人民法院针对肖某某恶意竞拍行为发布通报,对其罚款8万元。在11月7日,镇江经济开发区人民法院在淘宝网司法拍卖平台上发布了一则拍卖公告,决定于11月24日上午10时至25日上午10时公开拍卖一个特殊手机号码“18611999999”。重要提示栏中明确指出,对于恶意抬价、扰乱司法拍卖秩序的买受人,法院将采取罚款、拘留等措施,甚至追究刑事责任。0000苹果发布Apple Vision Pro开发者工具 使用Unity创作的app可直接移植
凤凰网科技讯(作者/阎烁)6月22日消息,苹果发布为AppleVisionPro打造空间体验的开发者工具,全球Apple开发者将可利用AppleVisionPro的无限空间打造一类全新的空间计算app。同时苹果表示下个月起,开发者可以将Unityapp移植到AppleVisionPro,全面利用其功能特性。站长网2023-06-23 23:42:180000特斯拉股价大跌7.16% 贝索斯再成世界首富
当地时间3月4日,特斯拉股价遭遇重创,大幅下跌7.16%,收盘价为188.14美元。这一跌幅导致特斯拉市值一夜之间蒸发了惊人的461亿美元,折合人民币约为3323亿元。据彭博亿万富翁指数显示,52岁的马斯克目前的净资产为1977亿美元,这一数字已被60岁的亚马逊创始人杰夫·贝索斯超越,后者现在的净资产为2003亿美元。这也是自2021年以来,贝索斯首次夺回世界首富的宝座。站长网2024-03-05 12:45:170000