Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等
站长网2024-02-02 10:48:594阅
Allen人工智能研究机构在Hugging Face和GitHub上发布了首个开放语言模型OLMo,意在通过提供数据、代码、模型和评估工具的开放访问,促进人工智能领域的共同研究。
这一举措的首批模型包括7B和1B规模的变体,覆盖不同架构和训练硬件,为未来更大规模、指令调整等模型的发布奠定基础。每个模型都提供全面的训练数据、权重、代码和评估工具,并在Apache2.0许可证下发布,鼓励合作构建全球最佳的开放语言模型。

截图来自官方
为了创建强大的开放模型,A12在设计中吸取了多个开放和部分开放模型的经验教训,包括EleutherAI的Pythia Suite、MosaicML的MPT模型、TII的Falcon模型和Meta的Llama系列。
对OLMo7B型号进行的评估显示,在生成任务和阅读理解上,它在许多任务上领先于Llama2,但在一些流行的问答任务上略显落后。通过与不同模型进行比较,OLMo展现出自己的优势和劣势,成为Llama2等流行模型的有力替代品。
在技术方面,OLMo的架构遵循了最新文献的趋势,包括不使用偏差、SwiGLU激活函数、Rotary位置嵌入(RoPE)等。通过一系列实验和调整,AI2发布了OLMo的第一个版本,并鼓励阅读技术报告以深入了解模型架构和培训方法。
未来,A12计划在OLMo家族中推出不同模型尺寸、模态、数据集、安全措施和评估方法,以共同构建全球最佳的开放语言模型。
OLMo的推出标志着AI2在开放研究领域的重要一步,其框架和模型的开放性为学者和研究人员提供了广泛的研究问题,推动了人工智能领域的不断发展。通过提供权重的开放访问,并鼓励合作,Allen致力于共同构建全球最卓越的开放语言模型,助力人工智能技术的进步。
0004
评论列表
共(0)条相关推荐
幻兽帕鲁祝贺黑神话悟空:Steam在线人数历史第二
站长之家(ChinaZ.com)8月21日消息:国产3A游戏《黑神话:悟空》自昨日正式发售后,在全球游戏界引起了巨大轰动。发售当天,该游戏在Steam平台上的同时在线人数晚间达到了峰值,超过222万人次,一举超越了此前排名第三的《幻兽帕鲁》,成为Steam在线人数历史第二的游戏,同时也是全球第一的单机游戏。站长网2024-08-21 15:25:370000DeepSeek推翻两座大山
DeepSeek的压力,终于还是传递到了黄仁勋身上。北京时间1月27日晚,英伟达美股股价盘前暴跌近11%,按目前市值34928亿美元计算,英伟达市值恐将缩水超3500亿美元。DeepSeek所掀起的低成本大模型训练策略,正在让资本市场怀疑,即当用相对较少的算力也能实现不输于OpenAI的模型性能表现时,英伟达所代表的高端算力芯片是否正迎来新的泡沫?0000入门骁龙8 Gen 2机型选购指南 | 小米13,荣耀Magic5,一加11如何选?
文|小伊评科技目前市场上主流品牌所发布的入门款骁龙8Gen2手机主要以小米13,IQOO11,荣耀Magic5,一加11这四款机型为主(至于Moto,中兴,努比亚所推出的产品则相对较为小众,购买的人可能会较为有限,这里不再罗列)。那么这五款机型作为消费者该如何选择?他们都有哪些优缺点,本文就来给大家做一个详细的点评。站长网2023-05-24 13:57:170004思维链被推翻!纽约大学新研究:大模型推理步骤或可省略
纽约大学的最新研究对当前流行的思维链(Chain-of-Thought,CoT)技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。研究显示,使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量而非推理步骤本身可能是提升性能的关键。论文地址:https://arxiv.org/pdf/2404.15758研究要点站长网2024-05-15 11:19:030001八部门:加快 IPv6 基础设施升级演进发展
据工信部官网,工业和信息化部等八部门发布关于推进IPv6技术演进和应用创新发展的实施意见,其中提到,加快网络基础设施升级演进。基础电信企业面向行业数字化转型需求,加快骨干网、城域网、5G网络升级改造,基于分段路由、网络切片、随流检测、应用感知网络、服务功能链(SFC)等技术,提升企业专线、家庭宽带、移动终端等业务服务能力。站长网2023-04-23 14:22:210000