研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复
要点:
密歇根大学的研究团队开发了一种名为Oobleck的开源大型模型训练框架,利用管道模板的概念,提供了快速而有保障的故障恢复,避免训练吞吐量下降。
Oobleck的设计核心是管道模板,这是针对给定节点数量的训练管道执行的规范,用于实例化管道副本。这些模板在逻辑上等效(可以一起用于训练相同的模型),但在物理上是异构的(使用不同数量的节点),从而在保障容错性的同时提供高吞吐量和快速恢复。
与现有框架相比,Oobleck是第一个利用大型语言模型固有冗余进行容错的框架。通过使用预生成的异构模板,它提供了高吞吐量、最大利用率、有保障的容错性以及在故障恢复时避免检查点或重算方法的开销。
随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。该框架采用管道模板的概念,为大型模型的预训练提供了快速而可靠的故障恢复机制。
项目地址:https://github.com/SymbioticLab/Oobleck
传统框架在大型语言模型预训练时缺乏系统支持,而Oobleck通过引入管道模板的概念创新性地解决了这一问题。这些管道模板在逻辑上等效,但在物理上是异构的,允许在训练时利用固有的冗余来提高容错性。相比于现有方法,Oobleck的优势在于其高吞吐量、最大利用率以及对故障的有保障快速恢复,而无需使用检查点或重算方法。
Oobleck的执行引擎在训练作业开始时,根据最大同时容忍的故障数量实例化至少f 1个异构管道。在故障发生时,框架通过简单地从预计算的管道模板重新实例化管道来进行恢复,避免了在运行时寻找新的最佳配置的繁琐分析。因此,使用预生成的管道模板总能够保证Oobleck从f个或更少的故障中恢复。
这种管道模板的引入不仅是对问题发生后缓慢处理或对所有可能情景进行规划的一种平衡,而且为分布式计算系统中的高效而有效的弹性提供了示范。未来,研究人员计划将管道模板应用于改进各种生成式人工智能应用的弹性,首先从推理服务系统开始。
总的来说,Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。
昆仑万维版ChatGPT来了 国产大模型“天工”通过程序员面试
日前,昆仑万维的AI模型“天工”通过了第一轮算法工程师面试,展示了其对编程语言和包括中文在内的自然语言的理解能力。“天工”模型由专注于人工智能和云计算的中国公司昆仑万维开发。该模型是在30万亿个中文单词的数据集上训练的,开发团队认为这使其在理解中国语言和文化方面具有天然优势。该模型已展示其生成文本和创意内容的能力,使其成为具有潜在价值的营销和广告工具。站长网2023-04-20 17:51:190000小米14 Ultra保外维修价格公布:换主板2730元
小米14Ultra旗舰影像手机现已开售,起售价6499元。小米商城最新信息显示,官方已公布该机的保外维修价格细节。令人瞩目的是,小米14Ultra的主板维修费用相当高昂,保外物料指导价高达2730元,加上40元的维修费。除主板外,显示屏的保外物料指导价也不低,为1350元。在摄像头方面,用户需支付1000元来更换广角镜头,490元更换超广角镜头,而长焦镜头的更换费用为180元。站长网2024-02-28 14:29:430000AI生产力平台Kindo获700万美元融资
文章概要:1.Kindo获种子轮融资700万美元,用于推出面向企业的AI生产力平台2.Kindo平台让企业安全利用任何AI模型,提升工作效率3.种子资金将帮助Kindo扩大业务规模,使更多企业采用AI人工智能初创公司Kindo日前宣布获得了700万美元的种子轮融资,用于推出面向企业的安全AI生产力平台。站长网2023-09-06 17:45:230000刘保中:短视频有助于建立更平等的代际关系
中国青年网北京5月22日电(记者牟昊琨实习记者李梦雨)“我们在社会学视角下理解青少年,代际比较是很重要的一个分析维度。”5月18日,在由中国社会科学院新闻与传播研究所主办的“短视频与青少年发展”研讨会上,中国社会科学院社会学研究所副研究员刘保中认为,在数字化社会,传统的代际关系模式正在表现出新的特点。0000我给自动驾驶做标注,2毛钱拉一个框,月薪3000元
淘金路上卖水人,就一定能赚钱吗?低门槛、重复性劳动、3000元月薪、老板无奈接下不盈利的项目以保证工资正常发放......这不是某个夕阳行业的现状,而是自动驾驶数据标注公司的真实写照。多年来,这些公司在三四线城市生产一张张带有数据框的图片。这些图片通过系统传输给甲方后,被用来训练自动驾驶技术,让它更像一个自然人司机。站长网2023-05-17 14:10:560000