颠覆LLM格局,AI2新模型OLMo2,训练过程全公开,数据架构双升级
【新智元导读】非营利研究机构AI2近日推出的完全开放模型OLMo2,在同等大小模型中取得了最优性能,且该模型不止开放权重,还十分大方地公开了训练数据和方法。
最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。
OLMo2系列包含7B和13B两个型号,相比如Llama3.1和Qwen2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。
不同大小开源模型的性能对比,OLMo2的表现优于同参数规模模型
在多个下游任务上,OLMo2展现出了强大的泛化能力和适应能力。在10个基准上,OLMo-2-13B的性能全面超越了Llama-2-13B,OLMo-2-8B的基准均分也超过了Llama-3.1-8B。
训练过程全公开
不同于Llama、Qwen这类只开源模型权重的项目,这次AI2也秉持了一贯的开源风格,即不止发布了训练好的OLMo2模型权重,还公开了训练数据、代码、训练过程。这无疑为之后的LLM的研究和应用提供了宝贵的资源。
论文地址:https://arxiv.org/pdf/2501.00656
OLMo2的训练过程分为3个阶段,分别是预训练、中期训练和后期的指令调优。预训练数据混合了高质量的网页数据、代码数据和学术论文数据等。
在预训练阶段,OLMo2通过多种技术改进了训练稳定性,例如过滤重复的n-gram、使用更好的初始化方法、架构改进和超参数调整。这确保了模型在训练过程中不会出现崩溃或损失激增,从而提高了最终模型的性能。
预训练使用的高质量数据集
中期训练阶段使用高质量的领域特定数据(例如数学数据),以及合成数据,来增强模型的能力,特别是在数学任务上的表现;加上微退火技术评估以及选择高质量的数据源,进一步优化了中期训练的效果。
中期训练使用的高质量数据集
最后的指令调优阶段,研究人员基于Tülu3的指令调优方法,开发了OLMo2-Instruct模型,专注于使用许可数据,并扩展最终阶段的强化学习与可验证奖励(RLVR)。
此外,监督微调(SFT)、直接偏好优化(DPO)和RLVR等多阶段训练,显著提高了模型的指令跟随能力和生成质量。
OLMo2的开源是全方位的,包括所有用于复制和扩展这些模型所需的训练和评估代码、数据集、模型检查点、日志及超参数的选择等,相比只开源权重,使更多研究人员和开发者能够使用和改进这些模型。
通过开源所有组件,OLMo2促进了对语言模型行为和使用的理解和研究,促进语言模型研究的透明度和可重复性,这些足以成为之后研究所依赖的基础设施。
OLMo27B和13B模型的训练过程中的超参数
多管齐下造就「低碳」LLM
在大规模语言模型训练中,计算资源和环境影响是不可忽视的因素。Deepseek V3能够以20分之一的成本进行训练,而OLMo2团队也通过减少主机-设备同步、数据预处理、数据缓存等多种方法降低了训练成本,并取得了显著的成效。
OLMo2的训练主要在两个集群上进行:Jupiter和Augusta。Jupiter集群配备了128个节点,每个节点有8张H100,总共1024个GPU;Augusta集群由160个A3Mega虚拟机组成,每个虚拟机也有8张H100,总共1280个GPU。
OLMo2的7B模型在4.05万亿token上进行训练,13B模型在5.6万亿token上进行训练。训练时间取决于模型的参数规模和训练数据量。
同时为了降低能源消耗,团队使用水冷系统来降低GPU的温度和功耗,从而提高训练效率并降低电力成本。
这些措施加在一起,相比训练同大小的Llama3.1所消耗的1022MWh电力,OLMo27B训练过程中总计只消耗了131MWh的电力,相当于只有约10分之一的耗电量,显著降低了训练过程消耗的算力,能源及碳足迹。
OLMo 和Llama训练能耗的对比
OLMo2的发布,标志着开源LLM的持续进步,为相关领域的研究建立一个新生态系统。在这个生态系统中,新的训练方法和技术需要被理解和分享。
参考资料:
https://allenai.org/blog/olmo2
OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录
座无虚席,过道里也站满了人。甚至你会以为这是一场明星见面会。但这其实是一场在硅谷进行的GenAI大会的其中一个圆桌。它被安排在“副舞台”,时间在人们最昏昏欲睡的中午,另一间大会议室的台上坐着不少硅谷明星公司的CEO和创始人们,而这个圆桌“只是”一些研究员们,但人们依然不停涌入这个小房间。站长网2023-09-25 18:00:460001B站UP主变现小拐点:三种路径,一个底色
过去一年,B站UP主变现跑出三个代表性案例,他们很有B站社区特色,也能够体现B站商业化现阶段的特点。@鹦鹉梨是直播带货的代表,单场直播带货GMV超5000万;@影视飓风是商单代表,作为老牌UP主,在原粉丝基数500万的基础上,还能实现粉丝数和商单收入双增长;@食贫道是内容付费的代表,上线7小时充电金额超过100万。三个案例,三种路径,但有同一种底色。站长网2024-02-20 15:14:21000070岁董明珠再提明年可能退休:鼓励经销商做好接力
站长之家(ChinaZ.com)8月23日消息:在郑州举行的河南格力2025年度营销峰会上,格力电器董事长兼总裁董明珠发表了演讲。会上,董明珠不仅分享了格力渠道变革的进展,还提到了自己可能在明年退休的计划。据董明珠介绍,格力的渠道变革已在全国各省基本完成,但仍需进一步梳理和完善,以实现最完美的服务体系。她强调,在大数据时代,传统销售方式已不再适用,格力正在打造线上与线下相结合的全新销售模式。站长网2024-08-23 08:28:510000在AI这个重要问题上,钉钉没有骗我
从ChatGPT发布至今已经整整半年了。在这半年中,国内几乎每家科技大厂都在做自己的生成式AI大模型——就在本周,我又看到了两家科技公司发布“自研通用大模型”。然而,由于监管、技术等多方面原因,国内用户迄今尚未真正享受到生成式AI的成果,也无法分辨谁真谁假、谁在投入而谁又是在玩概念。在我的朋友圈,转发各种“大模型发布会”的人也越来越少了……很重要的原因之一就是对大模型有点审美疲劳,也怕被忽悠了。站长网2023-06-01 14:54:570001