登陆注册

通信量减少500倍

  • DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍

    要点:DeepMind的研究团队提出了分布式低通信(DiLoCo)训练语言模型的方法,采用分布式优化算法,使语言模型在连接性较差的设备集群上训练,性能超过完全同步模型,通信开销减少500倍。DiLoCo借鉴联邦学习文献,采用一种变体的联邦平均(FedAvg)算法,结合动量优化器,通过将内部优化器替换为AdamW和外部优化器替换为NesterovMomentum,有效应对传统训练方法的挑战。
    站长网2023-11-28 15:56:00
    0001