登陆注册

研究团队开发开源大模型训练框架

  • 研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

    要点:密歇根大学的研究团队开发了一种名为Oobleck的开源大型模型训练框架,利用管道模板的概念,提供了快速而有保障的故障恢复,避免训练吞吐量下降。Oobleck的设计核心是管道模板,这是针对给定节点数量的训练管道执行的规范,用于实例化管道副本。这些模板在逻辑上等效(可以一起用于训练相同的模型),但在物理上是异构的(使用不同数量的节点),从而在保障容错性的同时提供高吞吐量和快速恢复。
    站长网2023-12-19 18:57:28
    0008