阿里达摩院推大语言模型PolyLM:通晓18种语言 拥有1.7B和13B两种参数版本
最近,阿里巴巴达摩院发布的一个名为 POLYLM 的多语言大型语言模型引起了人们的兴趣。与其他多语言模型不同的是,PolyLM 能够在理解、推理和生成自然语言指令方面表现出显著的能力,该模型拥有1.7B和13B两种参数版本可选。
官方的介绍是这样的:
PolyLM是一个通晓多语言的大语言模型,涵盖中文、英文、西班牙语、法语、德语、俄语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等18种语言。该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域,能够自动生成高质量的多语言文本,从而为跨语言、文化的交流提供便利。
据了解,POLYLM 使用了包含640B 个token 的庞大数据集进行训练,数据集来源于维基百科、mC4和 CC-100等公开可访问的资源。
研究团队提出了一种课程学习技术,逐渐增加高质量、资源较少的语言在训练中的比例,重点是从英语向其他语言转移通用知识。
团队还开发了一个名为 MULTIALPACA 的多语言指令数据集,用于监督微调阶段。为了评估 POLYLM 的多语言能力,团队还开发了一个基准测试,包括十个任务和十五种语言。研究表明,POLYLM 在非英语语言上的表现优于同等规模的开源模型。总的来说,POLYLM 提供了一个具有多语言能力的开源模型,有助于解决现有模型在非英语语言上的局限性。
团队总结了 POLYLM 的表现:
已经执行了熟练的13B 比例模型,在西班牙语、俄语、阿拉伯语、日语、韩语、泰语、印度尼西亚语和中文等主要非英语语言中表现良好。该模型补充了现有的开源模型,这些模型要么缺乏对这些语言的熟练程度,要么具有较小的版本而没有相同的功能。
提出了一种先进的课程学习方法,有助于将主要通过英语获得的一般知识转移到各种非英语语言和特定的自然语言处理任务(例如机器翻译)。
人们提出了一个名为 MULTIALPACA 的数据集,它补充了现有的教学数据集,使大语言模型能够更好地遵循多语言教学,特别是非英语母语人士的教学。
论文网址:https://arxiv.org/abs/2307.06018
项目网址:https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation/summary
报告:AI等技术推动中国数据备份与恢复系统市场健康增长
划重点:📈中国DR&P市场收入保持11.8%健康增长,AI、云计算等工作场景落地推动市场发展。💻数据备份与恢复软件市场以灵活性和定制性获得增长,一体机市场蓬勃发展。🔍华为、爱数、鼎甲等技术供应商在市场中表现突出,积极推动行业发展。站长网2024-04-28 20:40:420000芙蓉夜话“弘扬袁隆平科技创新精神”
5月22日晚,湖南省农业科学院院士专家、农业科技工作者和街道社区居民代表、党员群众齐聚长沙市芙蓉区东湖街道龙马社区,以夜话的形式,共同学习和弘扬袁隆平的科技创新精神。曾琳摄站长网2023-05-25 04:06:500000十块,低价过品直播爆红,“郑香香们”还能火多久
在真正的低价面前,所有直播套路似乎都显得黯然失色。近期,抖音主播“郑香香”因“低价过品直播”走红。从拖鞋、衣架到T恤,来不及介绍商品名称,她就直接报出价格“十块”,没等观众回过神,下一个商品已经出现在屏幕前。新榜旗下抖音数据工具新抖显示,“郑香香”仅一个月直播场观近1.5亿,预估销售额在7500万元至一亿元。站长网2023-10-19 17:01:090000一网站发布任务制造虚假点击量干扰搜索引擎算法 百度起诉获赔205万
据知产北京公众号消息,原告百度公司(简称百度公司)是百度网的运营主体,百度网主要为网络用户提供搜索服务。被告W有限公司(简称W公司)是“W广告任务网”网站的运营主体。站长网2023-10-30 08:40:420000京东:造谣“刘姓商人涉嫌违法被抓”的违法人员已被行政拘留
今日,京东官方发文称,据北京公安机关反馈,发帖造谣“刘姓商人涉嫌违法被抓”的违法人员梁某某,现已被公安机关依法行政拘留。请大家不信谣、不传谣,共同维护清朗的网络环境。据了解,今年10月,京东表示,关注到有谣言称“刘姓商人涉嫌违法被抓“,该谣言被别有用心的人刻意发布在京东相关新闻动态下,以混淆视听、操纵舆论。对此恶劣行径表示强烈愤慨,并已向公安机关报案。站长网2023-12-11 11:42:470000