颠覆LLM格局,AI2新模型OLMo2,训练过程全公开,数据架构双升级
【新智元导读】非营利研究机构AI2近日推出的完全开放模型OLMo2,在同等大小模型中取得了最优性能,且该模型不止开放权重,还十分大方地公开了训练数据和方法。
最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。
OLMo2系列包含7B和13B两个型号,相比如Llama3.1和Qwen2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。
不同大小开源模型的性能对比,OLMo2的表现优于同参数规模模型
在多个下游任务上,OLMo2展现出了强大的泛化能力和适应能力。在10个基准上,OLMo-2-13B的性能全面超越了Llama-2-13B,OLMo-2-8B的基准均分也超过了Llama-3.1-8B。
训练过程全公开
不同于Llama、Qwen这类只开源模型权重的项目,这次AI2也秉持了一贯的开源风格,即不止发布了训练好的OLMo2模型权重,还公开了训练数据、代码、训练过程。这无疑为之后的LLM的研究和应用提供了宝贵的资源。
论文地址:https://arxiv.org/pdf/2501.00656
OLMo2的训练过程分为3个阶段,分别是预训练、中期训练和后期的指令调优。预训练数据混合了高质量的网页数据、代码数据和学术论文数据等。
在预训练阶段,OLMo2通过多种技术改进了训练稳定性,例如过滤重复的n-gram、使用更好的初始化方法、架构改进和超参数调整。这确保了模型在训练过程中不会出现崩溃或损失激增,从而提高了最终模型的性能。
预训练使用的高质量数据集
中期训练阶段使用高质量的领域特定数据(例如数学数据),以及合成数据,来增强模型的能力,特别是在数学任务上的表现;加上微退火技术评估以及选择高质量的数据源,进一步优化了中期训练的效果。
中期训练使用的高质量数据集
最后的指令调优阶段,研究人员基于Tülu3的指令调优方法,开发了OLMo2-Instruct模型,专注于使用许可数据,并扩展最终阶段的强化学习与可验证奖励(RLVR)。
此外,监督微调(SFT)、直接偏好优化(DPO)和RLVR等多阶段训练,显著提高了模型的指令跟随能力和生成质量。
OLMo2的开源是全方位的,包括所有用于复制和扩展这些模型所需的训练和评估代码、数据集、模型检查点、日志及超参数的选择等,相比只开源权重,使更多研究人员和开发者能够使用和改进这些模型。
通过开源所有组件,OLMo2促进了对语言模型行为和使用的理解和研究,促进语言模型研究的透明度和可重复性,这些足以成为之后研究所依赖的基础设施。
OLMo27B和13B模型的训练过程中的超参数
多管齐下造就「低碳」LLM
在大规模语言模型训练中,计算资源和环境影响是不可忽视的因素。Deepseek V3能够以20分之一的成本进行训练,而OLMo2团队也通过减少主机-设备同步、数据预处理、数据缓存等多种方法降低了训练成本,并取得了显著的成效。
OLMo2的训练主要在两个集群上进行:Jupiter和Augusta。Jupiter集群配备了128个节点,每个节点有8张H100,总共1024个GPU;Augusta集群由160个A3Mega虚拟机组成,每个虚拟机也有8张H100,总共1280个GPU。
OLMo2的7B模型在4.05万亿token上进行训练,13B模型在5.6万亿token上进行训练。训练时间取决于模型的参数规模和训练数据量。
同时为了降低能源消耗,团队使用水冷系统来降低GPU的温度和功耗,从而提高训练效率并降低电力成本。
这些措施加在一起,相比训练同大小的Llama3.1所消耗的1022MWh电力,OLMo27B训练过程中总计只消耗了131MWh的电力,相当于只有约10分之一的耗电量,显著降低了训练过程消耗的算力,能源及碳足迹。
OLMo 和Llama训练能耗的对比
OLMo2的发布,标志着开源LLM的持续进步,为相关领域的研究建立一个新生态系统。在这个生态系统中,新的训练方法和技术需要被理解和分享。
参考资料:
https://allenai.org/blog/olmo2
OpenAI大佬甩出「喵喵GPT」调戏黑客!分享ChatGPT成功的秘密:极限压榨GPU资源
一个30人的团队,完成了这个地球上最受欢迎的产品的发布和维护。他们成功的经验和失败的教训,简直如金子一般珍贵。OpenAI的工程团队经理(EngineeringManager)EvanMorikawa在一个开发者社区的活动中,分享了OpenAI发布ChatGPT以来,工程团队从开发和支持层面获得的最重要的几条经验和有趣的事情。CatGPT调戏黑客站长网2023-11-08 18:04:370000Anthropic发布新方法 通过提示降低生成式AI偏见
**划重点:**1.📄Anthropic发布了一项方法,通过提示工程降低公司使用大型语言模型的输出中的歧视。2.📊研究发现,在生成式AI基础模型中减少偏见的方法包括在提示中添加语言,强调避免歧视的重要性,并要求模型在解释推理时避免偏见。3.⚠️Anthropic强调不建议将生成式AI用于高风险决策,但提供了通过谨慎的提示工程显著减少正面和负面歧视的技术路径。0000研究人员发现,谷歌Gemini表现不如GPT-3.5 Turbo
在近期的一项研究中,来自卡内基梅隆大学和BerriAI的研究团队对GoogleGeminiPro进行了深入的评估,并发现其在多项任务中表现不如OpenAI的GPT-3.5Turbo。这一发现无疑是对Google在生成式人工智能领域与OpenAI竞争的雄心的一次沉重打击。GeminiPro与GPT-3.5Turbo对比0000时代变了!英伟达纳入道琼斯指数,英特尔被取代
见证历史!最新消息,英伟达将在2024年11月8日替代英特尔成为道琼斯工业平均指数的组成成员。这是历史最悠久的美国市场指数之一,只有30家能代表美国工商业的上市公司有资格入选。消息释出,英伟达股价上涨2.9%,英特尔股价下跌1.85%,道琼斯指数下跌0.9%。这一变动意味着,英特尔将结束在道琼斯指数中25年的任期,半导体行业巨变还在加速发生。0000小米:SU7主动安全AEB功能默认开启 关闭后下次自动开启
快科技8月5日日消息,据小米官方最新介绍,SU7的主动安全AEB功能是否是默认开启,用户可以设定前向碰撞预警FCW的灵敏度。用户可以自行手动关闭AEB,关闭仅在当前上电周期生效,下次重新上电后默认开启。据悉,小米SU7的AEB前向紧急制动可在135km/h最高行驶速度下,实现最大70km/h速度降。另外,小米官方最新问答还回解释了以下问题:夏天空调制冷能耗大么?建议如何使用空调模式?站长网2024-08-05 09:05:580000