基于Llama 2的日语LLM发布,参数量达70亿、可与GPT3.5匹敌
文章概要:
1. ELYZA发布了基于Meta的Llama2的日语LLM「ELYZA-japanese-Llama-2-7b」,参数数量达到70亿,性能媲美GPT3.5。
2. 该模型经过追加事前学习和独特的事后学习,性能在5级手动评估中获得最高分,尽管还未达到封闭型LLM的水平,但已经与GPT3.5相匹敌。
3. ELYZA成功地将英语等其他语言的LLM能力引入日本语,并通过减少日本语学习量来改进Meta的Llama2基础上的模型。
最近,日本的人工智能初创公司ELYZA宣布发布了一款基于Meta的「Llama2」的日本语言模型(LLM),该模型被命名为「ELYZA-japanese-Llama-2-7b」,拥有70亿参数。此举使得该模型能够与开放AI领域的巨头GPT3.5相媲美。
为了达到这一性能水平,ELYZA采用了多重学习策略。首先,他们进行了日本语的追加事前学习,然后进行了独特的事后学习。此外,通过增加日本语词汇表,他们实现了模型的高速化,进一步提高了性能。这一系列措施使得「ELYZA-japanese-Llama-2-7b」成为一个强大的日本语言模型。
性能方面,ELYZA使用了「ELYZA Tasks100」数据集,进行了5级手动评估。评测时,三人进行盲测,隐藏型号名称、打乱顺序,通过得分平均来计算分数。
结果显示,「ELYZA-japanese-Llama-2-7b-instruct」在与其他已公开的日本语模型进行比较时,获得了最高分。虽然它还没有达到闭源LLM的水平,但已经能够与GPT3.5相匹敌。
值得注意的是,ELYZA在模型的开发中采用了一种聪明的方法,将其他语言的LLM能力引入到了日语中,从而减少了日语学习的难度和成本。这一策略为模型的性能提升做出了重要贡献。
ELYZA的「ELYZA-japanese-Llama-2-7b」模型标志着日本语LLM领域的一项重要突破。虽然目前在参数数量上仍不及一些国际级模型,但这一进展为日本语自然语言处理和生成领域带来了更多可能性,未来可望进一步提高日本语LLM的性能。
Hugging Face推出新服务Training Cluster 可一键训练模型
近日,人工智能科技公司HuggingFace推出了一项新服务TrainingCluster,用户仅需一键即可对模型进行训练,无需处理复杂的内部过程。这项创新服务将极大地减少用户在深度学习项目中进行模型训练所需的时间和精力。项目地址:https://huggingface.co/training-cluster站长网2023-09-07 11:09:090000安卓最强U!联发科天玑9300 宣布5月7日发布
快科技4月29日消息,联发科天玑开发者大会MDDC2024将于5月7日举行,天玑9300旗舰芯片将在大会上发布。据爆料,vivoX100S将首发这颗芯片,RedmiK70至尊版紧随其后,加入首批搭载行列。天玑9300基于台积电4nm工艺打造,架构延续了4颗超大核4颗大核组合。CPU主频最高为3.4GHz,Geekbench6单核成绩2300,多核成绩7700。站长网2024-04-30 07:41:000002苹果 CEO 库克回应 ChatGPT 的兴起:应用生成式 AI 技术「深思熟虑非常重要」
站长之家(ChinaZ.com)5月5日消息:苹果公司今天公布了2023年第二财季的财务业绩。本季度,苹果公布的收入为948亿美元,季度净利润为241亿美元,稀释后每股收益为1.52美元,而去年同期的收入为973亿美元,季度净利润为250亿美元,稀释后每股收益为1.52美元。站长网2023-05-05 09:03:230000匿名论文提出奇招,增强大模型长文本能力居然还能这么做
一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展?不行,这些都太费硬件资源了。来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流式更新”,也就是用先前生成的内容不断作为输入来充当训练数据,以此保证知识被存进模型参数中。站长网2024-02-04 09:04:360003文本生成高精准3D模型,北京智源AI研究院等出品—3D-GPT
北京智源AI研究院、牛津大学、澳大利亚国立大学联合发布了一项研究—3D-GPT,通过文本问答方式就能创建高精准3D模型。据悉,3D-GPT使用了大语言模型的多任务推理能力,通过任务调度代理、概念化代理和建模代理三大模块,简化了3D建模的开发流程实现技术民主化。站长网2023-11-10 09:08:380000