支持534种语言,开源大语言模型MaLA-500
无论是开源的LLaMA2还是闭源的GPT系列模型,功能虽然很强大,但对语言的支持和扩展比较差,例如,二者都是以英语为主的大模型。
为了提升大模型语言的多元化,慕尼黑大学、赫尔辛基大学等研究人员联合开源了,目前支持语言最多的大模型之一MaLA-500。
MaLA-500以LLaMA2为基础模型,再用多语言数据库Glot500-c进行语言扩展训练,支持语言达到了惊人的534种。
开源地址:https://huggingface.co/MaLA-LM/mala-500
论文地址:https://arxiv.org/abs/2401.13303

训练数据
研究人员选用了开源数据集Glot500-c对MaLA-500进行了语言扩展训练。该数据集包含了534种语言,涵盖47种不同种族语言,数据量高达2万亿tokens。
研究人员表示,选择Glot500-c数据集的原因在于,可以大幅扩展现有语言模型的语言覆盖范围,并包含极其丰富的语言家族,这对于模型学习语言内在的语法和语义规律帮助巨大。
此外,虽然一些高资源语言的比例相对较低,但Glot500-c的整体数据量对训练大规模语言模型而言足够用。在后续的预处理中,又对语料数据集进行了加权随机采样,以增加低资源语言在训练数据中的比例,让模型更加聚焦特定语言。
基础模型LLaMA2
MaLA-500选择了目前最知名的开源大语言模型之一LLaMA2-7B作为基础模型,并进行了两大技术点创新。
1)增强词汇表,研究人员通过Glot500-c数据集,训练了一个多语言分词器,将LLaMA2的原英文词汇表扩展到了260万,大幅增强了模型对非英语和低资源语言的适配能力。

2)模型增强,使用了LoRA技术在LLaMA2的基础上进行低秩适配。只训练适配矩阵而冻结基础模型权重,可以高效地实现模型在新语言上的持续学习能力,同时保留模型原有的知识。
训练流程
训练方面,研究人员用了24张N卡A100GPU进行训练,并使用了包括Transformers、PEFT和DeepSpeed三个主流深度学习框架。
其中,DeepSpeed提供了分布式训练的支持,可以实现模型并行;PEFT实现了高效的模型微调;Transformers提供了模型功能的实现,例如,文本生成、提示词理解等。
为了提升训练的高效性,MaLA-500还使用了各种显存和计算优化算法,如ZeRO冗余优化器,可最大化利用GPU算力资源;以及混合精度训练的bfloat16数格式加速训练流程。
此外,研究人员还对模型参数进行了大量优化,使用了学习率为2e-4的常规SGD训练,并使用了0.01的L2权重衰减以防止模型过大,出现过拟合、内容输出不稳定等情况。

为了测试MaLA-500的性能,研究人员在SIB-200等数据集上进行了综合实验。
结果显示,相比原始LLaMA2模型,MaLA-500在主题分类等评测任务上的准确率提高了12.16%,这说明MaLA-500的多语言优于,现有的众多开源大语言模型。
本文素材来源MaLA-500论文,如有侵权请联系删除
罗翔谈ChatGPT:不要担心它会取代人类,我们是万物之灵
4月26日,中国政法大学刑事司法学院教授罗翔在华南师范大学附属中学的“华附讲坛”上做客。“ChatGPT可为司法量刑应用吗?”“如何使网络舆论不沦为‘多数人的暴政’?”在同学们充满思考、独特的提问下,现场气氛达到了高潮。提到当下很火的ChatGPT,罗翔表示:“我始终将它视为一种工具,因为ChatGPT无法回答像‘如果你妻子和母亲同时掉进水里,谁先救’这样的问题。”站长网2023-04-27 16:45:570000生数科技AI绘画平台PixWeaver开启公测 平均生成每张图仅需3秒
生数科技宣布AI绘画平台PixWeaver正式开启公测。该平台具有高效创作的特点,平均生成每张图仅需3秒,用户无需等待。而且,其超高质量的画面精致、构图完整,细节刻画丰富,美学表现极佳。值得一提的是,PixWeaver引入了本土化的知识训练,能够生成特有的中国元素。在多元风格融合方面,PixWeaver的基础模型支持多种风格,能够完美适配多种场景,操作更加便捷。站长网2023-09-22 09:05:500000微软开源GraphRAG:极大增强大模型问答、摘要、推理
7月3日,微软在官网开源了基于图的RAG(检索增强生成)——GraphRAG。为了增强大模型的搜索、问答、摘要、推理等能力,RAG已经成为GPT-4、Qwen-2、文心一言、讯飞星火、Gemini等国内外知名大模型标配功能。传统的RAG系统在处理外部数据源时,只是简单地将文档转换为文本,将其分割为片段,然后嵌入到向量空间中,使得相似的语义对应相近的位置。站长网2024-07-03 09:00:050001本地LLM运行工具Ollama Windows 预览版推出
最近,本地LLM运行工具Ollama推出了windows版本。Ollama是一款开源的大型语言模型工具,专注于为用户提供本地化的运行环境,满足个性化的需求。该工具允许用户快速运行Llama2、CodeLlama等多种模型,并提供类似于OpenAI的API接口和聊天界面,方便用户部署和使用最新版本的GPT模型。站长网2024-02-20 10:59:120002显卡可能没那么重要了?中国公司给硅谷好好上了一课。
我是万万没想到,就在西方还沉浸在圣诞假期,疯狂“过年”的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。紧接着又来了个国产大模型DeepSeek,甚至有股做空英伟达的味道。具体咋回事儿,咱给你唠明白咯。站长网2025-01-03 09:18:540000