支持534种语言,开源大语言模型MaLA-500
无论是开源的LLaMA2还是闭源的GPT系列模型,功能虽然很强大,但对语言的支持和扩展比较差,例如,二者都是以英语为主的大模型。
为了提升大模型语言的多元化,慕尼黑大学、赫尔辛基大学等研究人员联合开源了,目前支持语言最多的大模型之一MaLA-500。
MaLA-500以LLaMA2为基础模型,再用多语言数据库Glot500-c进行语言扩展训练,支持语言达到了惊人的534种。
开源地址:https://huggingface.co/MaLA-LM/mala-500
论文地址:https://arxiv.org/abs/2401.13303
训练数据
研究人员选用了开源数据集Glot500-c对MaLA-500进行了语言扩展训练。该数据集包含了534种语言,涵盖47种不同种族语言,数据量高达2万亿tokens。
研究人员表示,选择Glot500-c数据集的原因在于,可以大幅扩展现有语言模型的语言覆盖范围,并包含极其丰富的语言家族,这对于模型学习语言内在的语法和语义规律帮助巨大。
此外,虽然一些高资源语言的比例相对较低,但Glot500-c的整体数据量对训练大规模语言模型而言足够用。在后续的预处理中,又对语料数据集进行了加权随机采样,以增加低资源语言在训练数据中的比例,让模型更加聚焦特定语言。
基础模型LLaMA2
MaLA-500选择了目前最知名的开源大语言模型之一LLaMA2-7B作为基础模型,并进行了两大技术点创新。
1)增强词汇表,研究人员通过Glot500-c数据集,训练了一个多语言分词器,将LLaMA2的原英文词汇表扩展到了260万,大幅增强了模型对非英语和低资源语言的适配能力。
2)模型增强,使用了LoRA技术在LLaMA2的基础上进行低秩适配。只训练适配矩阵而冻结基础模型权重,可以高效地实现模型在新语言上的持续学习能力,同时保留模型原有的知识。
训练流程
训练方面,研究人员用了24张N卡A100GPU进行训练,并使用了包括Transformers、PEFT和DeepSpeed三个主流深度学习框架。
其中,DeepSpeed提供了分布式训练的支持,可以实现模型并行;PEFT实现了高效的模型微调;Transformers提供了模型功能的实现,例如,文本生成、提示词理解等。
为了提升训练的高效性,MaLA-500还使用了各种显存和计算优化算法,如ZeRO冗余优化器,可最大化利用GPU算力资源;以及混合精度训练的bfloat16数格式加速训练流程。
此外,研究人员还对模型参数进行了大量优化,使用了学习率为2e-4的常规SGD训练,并使用了0.01的L2权重衰减以防止模型过大,出现过拟合、内容输出不稳定等情况。
为了测试MaLA-500的性能,研究人员在SIB-200等数据集上进行了综合实验。
结果显示,相比原始LLaMA2模型,MaLA-500在主题分类等评测任务上的准确率提高了12.16%,这说明MaLA-500的多语言优于,现有的众多开源大语言模型。
本文素材来源MaLA-500论文,如有侵权请联系删除
谷歌培训 Bard AI 聊天机器人的合同工抱怨工资低、超时工作
一些负责培训谷歌新人工智能聊天机器人Bard的合同工宣称,他们因为抱怨工作的低工资和不合理的工作时间被非法解雇。这个事件让他们不能继续进行培训,同时也不能保证人工智能聊天机器人不会带来危害。这些合同工向国家劳工关系委员会(NLRB)提出了投诉,并声称因为组织活动而被雇主Appen非法解雇。Appen是为大型科技企业提供数万名合同工的公司。这些合同工为改善工资和工作条件争取了近一年的时间。站长网2023-06-16 14:38:570000北京民营企业科技创新百强榜发布!百度居首、小米第四
北京民营企业科技创新百强榜单发布9月26日,北京市工商联公布了2024年北京民营企业科技创新百强榜单。榜单评选以2023年企业营收、研发投入、研发强度和研发人员等核心指标为依据,并考量企业的合规经营和诚信度等因素。最终,百强企业脱颖而出。百度公司拔得头筹,彰显其科技创新实力。李彦宏曾在央视采访中表示,百度高度重视技术,研发费用多年来一直占收入的20%以上。0000卖身传闻中的盒马,值多少钱?
该怎么给盒马估值?在卖身传闻中,盒马新CEO上任后的第一波调整来了。4月24日起,盒马恢复会员开卡、续费,并将免运费门槛下调至49元。此前,盒马门店还悄悄取消了“线下专享价”,恢复线上线下同价。这相当于“推翻”了半年前盒马创始人侯毅(花名“老菜”)在任时的决策。站长网2024-04-25 03:04:340000苹果Vision Pro的另一面:虚拟人3.0要爆发了
6月6日凌晨,苹果在WWDC2023发布的初代MR头显VisionPro引发行业热议,也重新点燃了XR行业的热情。相较于这款初代产品而言,由VisionPro引爆的“空间计算革命”,对科技产业影响将更加深远。空间计算爆发虚拟人成空间互联网核心节点站长网2023-06-13 20:03:510000今日AI:苹果大模型MM1入场;Sora训练数据来源竟来自这;全球最快AI芯片WSE-3发布;阿里邀请AI参加数学竞赛
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📰🤖📢AI新鲜事苹果大模型MM1入场:参数达到300亿超半数作者是华人【AiBase提要:】站长网2024-03-15 16:12:180000