DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍
要点:
DeepMind的研究团队提出了分布式低通信(DiLoCo)训练语言模型的方法,采用分布式优化算法,使语言模型在连接性较差的设备集群上训练,性能超过完全同步模型,通信开销减少500倍。
DiLoCo借鉴联邦学习文献,采用一种变体的联邦平均(FedAvg)算法,结合动量优化器,通过将内部优化器替换为AdamW和外部优化器替换为Nesterov Momentum,有效应对传统训练方法的挑战。
DiLoCo通过限制共位要求、降低通信频率和设备异构性等三个关键因素,实现了在多台设备可用但连接较差的情况下,分布式训练变压器语言模型的鲁棒性和效果,并在C4数据集上展现出与完全同步优化相媲美的性能。
DeepMind的最新研究在语言模型训练领域取得突破,提出了分布式低通信(DiLoCo)方法。这一方法采用分布式优化算法,使得语言模型可以在连接性较差的设备集群上训练,不仅性能超越完全同步模型,而且通信开销降低了500倍。为了实现这一创新,研究人员借鉴了联邦学习文献,提出了一种基于动量优化器的联邦平均算法的变体,通过替换内部和外部优化器,成功应对传统训练方法的工程和基础设施挑战。
DiLoCo方法的关键优势体现在三个方面:首先,对设备的共位要求较低,减轻了后勤负担;其次,通信频率降低,工作者不需要在每一步都进行通信,大大减少了通信开销;最后,设备异构性的引入增强了灵活性,同一集群内的设备可以不同类型,提高了适应性。
在DiLoCo的训练过程中,通过复制预训练模型,每个工作者独立且并行地在自己的数据片段上训练模型。随后,工作者平均其外部梯度,外部优化器更新全局参数,这一过程重复多次。值得注意的是,每个复制品可以在不同的全局位置使用各种加速器进行训练。
在C4数据集上的实验证明,DiLoCo在8个工作者的情况下展现出与完全同步优化相当的性能,同时通信开销降低了500倍。此外,DiLoCo对每个工作者数据分布的变化表现出卓越的稳健性,并且能够适应训练过程中资源可用性的变化。
综合而言,DiLoCo方法为分布式训练提供了一个强大而有效的解决方案,特别是在多台设备可用但连接性较差的情况下。这一创新性的方法不仅克服了基础设施挑战,还展示出卓越的性能和适应性,标志着语言模型优化领域的重大进展。
GPT-4调教指令揭秘,OpenAI又「Open」了一回!网友在线追问GPT-5
【新智元导读】GPT-4越来越懂事了,这背后有着非常巧妙的「调教」策略。OpenAI最新发布的「模型规范」,给LLM列出了条条框框,即正确的行为方式。没想到,评论区一大片网友催更GPT-5。这周既没有GPT-5,也没有搜索引擎的发布,不过,OpenAI也是没闲着。这次,OpenAI可是又open了一回。先是揭秘了,大家一直揪着不放的「数据」问题。站长网2024-05-14 10:37:100000活跃在小红书的“知乎倒爷”
如果内容生产也可以分为“贸-工-技”三个阶段,当机构媒体和自媒体们,纷纷走向后两个者,那么“搬运工”们毫无疑问停留在前者。小红书,移动互联网最后的应许之地。就像当年的微信、头条和抖音,少数先做起来的大V试图告诉你,做小红书是互联网最后的一波红利,并通过各种免费或付费课程,告诉你无数种起号手段。站长网2023-10-26 17:18:440000双11大战,从最低价“卷”起
今年双11,比往年开始的更早一点。短视频平台甚至更早于传统电商平台,率先拉开双11大促帷幕。10月18日,快手电商以“大牌百亿补,尽在快手商城”为主题,正式开启双11预售。之后,京东、淘宝天猫、抖音纷纷启动双11。站长网2023-10-30 14:24:180000视频号电商走出黑盒?
被称作腾讯「全场希望」的视频号,2023年开始释放商业能量。去年这个时候,视频号电商还处于一片浓雾之中。当时,还有很多基础工具等待补齐,模糊的客群画像需要更清晰,用户标签也需要时间沉淀。除了自带强大私域能力,大部分商家都像丈二和尚,摸不着头脑。一年过去,这个黑匣子逐渐可视化。这一年是视频号蓄力也是发力的一年。0000Tractian获4500万美元融资 用于扩展工业机械的AI监测能力
本文要点:1.Tractian获得4500万美元的B轮融资,将用于扩展其AI能力、扩大研发团队并进入新的工业领域。2.Tractian使用传感器、边缘计算硬件和AI模型监测工业机械,并通过振动和频率模式识别潜在故障。3.该公司计划进一步改进AI模型,并扩大业务范围,目前已有超过500个客户,覆盖约1000个制造工厂。站长网2023-08-08 10:28:180000