Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等
站长网2024-02-02 10:48:594阅
Allen人工智能研究机构在Hugging Face和GitHub上发布了首个开放语言模型OLMo,意在通过提供数据、代码、模型和评估工具的开放访问,促进人工智能领域的共同研究。
这一举措的首批模型包括7B和1B规模的变体,覆盖不同架构和训练硬件,为未来更大规模、指令调整等模型的发布奠定基础。每个模型都提供全面的训练数据、权重、代码和评估工具,并在Apache2.0许可证下发布,鼓励合作构建全球最佳的开放语言模型。
截图来自官方
为了创建强大的开放模型,A12在设计中吸取了多个开放和部分开放模型的经验教训,包括EleutherAI的Pythia Suite、MosaicML的MPT模型、TII的Falcon模型和Meta的Llama系列。
对OLMo7B型号进行的评估显示,在生成任务和阅读理解上,它在许多任务上领先于Llama2,但在一些流行的问答任务上略显落后。通过与不同模型进行比较,OLMo展现出自己的优势和劣势,成为Llama2等流行模型的有力替代品。
在技术方面,OLMo的架构遵循了最新文献的趋势,包括不使用偏差、SwiGLU激活函数、Rotary位置嵌入(RoPE)等。通过一系列实验和调整,AI2发布了OLMo的第一个版本,并鼓励阅读技术报告以深入了解模型架构和培训方法。
未来,A12计划在OLMo家族中推出不同模型尺寸、模态、数据集、安全措施和评估方法,以共同构建全球最佳的开放语言模型。
OLMo的推出标志着AI2在开放研究领域的重要一步,其框架和模型的开放性为学者和研究人员提供了广泛的研究问题,推动了人工智能领域的不断发展。通过提供权重的开放访问,并鼓励合作,Allen致力于共同构建全球最卓越的开放语言模型,助力人工智能技术的进步。
0004
评论列表
共(0)条相关推荐
vivo副总裁谈华为手机回归:拿回该属于自己的份额 中国市场竞争依旧惨烈
快科技12月30日消息,vivo执行副总裁、首席运营官胡柏山今日公开表示,生成式AI要成为智能手机全新增量市场关键推力仍需要约5年时间。生成式AI技术加强传统功能,比如AI消除,AI电话秘书,这是第一阶段;其次,通过以大模型与OS系统的深度耦合,手机就会有能力识别用户意图;第三个阶段,对硬件的算力要求较高,目前的SoC性能不够,其架构要能和服务器性能需求接近。”0001害怕将数据泄露给 ChatGPT?微软正计划推出 10 倍成本的私有版本 AI 聊天机器人
根据TheInformation的一份报道,微软正计划向银行、医疗机构和其他关注数据泄露和监管合规的大型机构提供以隐私为重点的专有ChatGPT聊天机器人。站长网2023-05-05 16:26:030002搜狐CEO张朝阳称华为技术绝对值得信任
近日,搜狐出品的一档节目《BOSS11》第34期中,搜狐创始人兼首席执行官张朝阳对华为技术给予了高度评价。在节目中,对于华为的技术实力,张朝阳表示:“好玩不贵、轻松有效,而且华为技术绝对值得信任。”他认为,采用华为数智化产品的企业已经走在了行业前列,通过更低的成本实现了更高的办公效率。据悉,此前搜狐与华为达成鸿蒙全面合作,宣布旗下搜狐新闻APP及搜狐视频APP都已经在鸿蒙化。0000性能小钢炮!iPhone SE 4将配A18芯片:支持Apple Intelligence
快科技8月12日消息,苹果公司计划于2025年推出支持AppleIntelligence的iPhoneSE4,预计将搭载至少A18芯片以支持全新iOS18.1的生成式AI功能。据悉,新款iPhoneSE4将支持AppleIntelligence,这是一套预计与iOS18.1一同发布的全新生成式AI功能。站长网2024-08-13 09:44:200000一个寒假靠2部短剧收入过亿,在封杀、下架风波后,咪蒙更懂赚钱密码了?
钮祜禄·咪蒙,又双叒回来了?去年年末,咪蒙短剧《黑莲花上位手册》上架24小时充值破2000万,但很快因“渲染极端复仇、以暴制暴”被下架。在短剧赛道野蛮生长,闷声发大财的咪蒙,似乎再遭流量反噬。但她一刻没停,寒假和春节推出两部新短剧《裴总每天都想父凭子贵》和《我在八零年代当后妈》。尤其《我在八零年代当后妈》,上线当天冲上DataEye短剧热力榜第二,次日登顶,单日充值过2000万。站长网2024-02-26 09:08:500001