阿里开源千亿参数模型 Qwen1.5-110B,性能超越 Meta-Llama3-70B
站长网2024-04-28 17:54:540阅
近日,阿里巴巴宣布开源其最新的 Qwen1.5系列语言模型 - Qwen1.5-110B。这是 Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。
据悉,Qwen1.5-110B采用了与其他Qwen1.5模型相同的Transformer解码器架构,并引入了分组查询注意力(GQA)机制,在模型推理时更加高效。该模型支持32K tokens的上下文长度,同时仍然是多语言的,支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

与最近发布的SOTA语言模型Meta-Llama3-70B和Mixtral-8x22B进行对比,结果显示Qwen1.5-110B在基础能力方面至少与Llama-3-70B相媲美。
阿里巴巴表示,与之前发布的72B模型相比,在两个聊天模型的基准评估中,110B模型表现显著更好,这表明即使在没有大幅改变后训练方法的情况下,更强大、更大规模的基础语言模型也可以带来更好的聊天模型性能。
Qwen1.5-110B是Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色,并且明显优于72B模型。
0000
评论列表
共(0)条相关推荐
李佳琦的新对手来了
线下,主持人李响在串场介绍,屏幕上另一位“李响”则在直播带货。两人容貌、音色、语调及习惯手势几乎一模一样。如果不是现实中的李响自报家门,大众一时间并不能分清。这是今年8月,发生在“2023AI创新发布会”上的一幕。站长网2023-09-04 09:25:300000谁在为“雪季”买单?
12月10日夜,北京迎来今冬第一场大雪。打工人盼雪的心情,似乎比过年还兴奋。截至12月11日16时,市属公园接待雪中赏景游客超过10万人。比北京大雪来得更早一步的,是2023年的滑雪季。11月以来,国内各旅游目的地室外滑雪场已经集中开板。第一批滑雪玩家早已争先恐后地挤满了各个雪场,他们身着鲜艳的滑雪服,手持雪杖,脚踏雪板,从雪道上飞驰而过,尽情享受着冰雪带来的速度与激情。站长网2023-12-13 22:09:130000Sora来临,它能抢了谁的饭碗?
继ChatGPT后,OpenAI在2024年初又掀起了人们的讨论热情。2月16日清晨,OpenAI发布了文生视频AI模型Sora,引爆全球网络。与以往的文生视频模型Runway和Pika不同,Sora可以持续地模拟人物、动物和物体,并生成同一角色的多个景别的镜头,在整个视频中保持其外观和背景。站长网2024-02-20 17:17:130000谦寻回应薇娅电商公司申请注销:相关业务已被谦寻文化承接
据36氪消息,针对薇娅电商公司申请注销一事,谦寻回应称,由于公司战略调整,原谦寻电子经营业务已于2019年起为谦寻文化承接。此前,天眼查App显示,近日,杭州谦寻电子商务有限公司新增简易注销公告,公告期自6月7日至6月26日。该公司成立于2016年11月,法定代表人、执行董事兼总经理为董海锋(薇娅丈夫),同时董海锋持有该公司51%股份,为第一大股东及疑似实际控制人。站长网2023-06-12 22:57:130000Hugging Face 大语言模型三大优化技术
大语言模型的生产部署面临着两个主要挑战:一是需要庞大的参数量,二是需要处理超长的上下文信息输入序列。HuggingFace基于他们在提供大型模型服务方面的经验,分享了一些应对这些难题的技术。在PatrickvonPlaten的文章中,他介绍了三种HuggingFace研究的技术,分别是降低数值精度、采用FlashAttention注意力算法,以及利用专门的推理架构。站长网2023-10-08 14:33:560001