阿里开源千亿参数模型 Qwen1.5-110B,性能超越 Meta-Llama3-70B
站长网2024-04-28 17:54:540阅
近日,阿里巴巴宣布开源其最新的 Qwen1.5系列语言模型 - Qwen1.5-110B。这是 Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。
据悉,Qwen1.5-110B采用了与其他Qwen1.5模型相同的Transformer解码器架构,并引入了分组查询注意力(GQA)机制,在模型推理时更加高效。该模型支持32K tokens的上下文长度,同时仍然是多语言的,支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。
与最近发布的SOTA语言模型Meta-Llama3-70B和Mixtral-8x22B进行对比,结果显示Qwen1.5-110B在基础能力方面至少与Llama-3-70B相媲美。
阿里巴巴表示,与之前发布的72B模型相比,在两个聊天模型的基准评估中,110B模型表现显著更好,这表明即使在没有大幅改变后训练方法的情况下,更强大、更大规模的基础语言模型也可以带来更好的聊天模型性能。
Qwen1.5-110B是Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色,并且明显优于72B模型。
0000
评论列表
共(0)条相关推荐
日赚2亿的茅台,为了抓住年轻人有多拼
即便有研究表明,美酒加咖啡可能会影响身体健康,但完全不影响茅台和瑞幸联名推出的酱香拿铁热卖——上线第一天卖出了542万杯,销售额直接破亿,瑞幸CMO杨飞在朋友圈直言虽然预期会爆,但结果仍远超预期。站长网2023-09-09 09:33:320000晋江IP二十年,言情网文开始失落
大溃败、折戟、未如人意。这是2023年,行业观察者提到晋江改编IP时,频频使用的一些词汇。确实,比起往年的爆款频出,今年的晋江IP改编确实少了那么些「如期而爆」。上半年,《重紫》扑街,《长月烬明》口碑两极,下半年,《玉骨遥》引群嘲,《七时吉祥》完结的悄无声息。这还不够,7月初,芒果TV一部《我的人间烟火》,更是把晋江IP推上了「娇妻文学」的风口浪尖。00002024年AI行业预测:开源模型击败GPT-4、Agent爆发、AI侵权案涌现……
生成式AI占据着2023年诸多头条新闻,2024年大概也会如此。随着大模型的持续进步,许多玩家在讨论:AI会朝着什么方向发展?2024年AI行业会遇冷吗?或者迎来新的突破和更广泛的应用?监管者和公众将如何应对?0000这款上线不到半年的产品干掉了品类No.1,月流水已经破亿
这两三年,物理消除(PhysicalMatch)和堆叠消除(TileMatch)2个品类快速发展,出了许多新品,前者如Boombox发行的「TripleMatch3D」,被很多游戏公号作为优秀案例分析,后者如国内爆火的小游戏「羊了个羊」。站长网2024-07-02 16:06:040000罗永浩喊话董宇辉:愿提供创业支持 没必要再去打工
最近,东方甄选和董宇辉之间的“小作文”事件在网上炒得沸沸扬扬。初代网红、企业家罗永浩也对此事件发表了看法,表示愿意支持董宇辉创业。罗永浩在“罗永浩的辟谣号”微博上表示,看了这两天与董宇辉事件相关的新闻,勾起了很多年轻时的回忆,有些感慨。他称:“如果董宇辉老师本人想创业,我很愿意跟一些做投资和做企业的朋友们攒一个局,支持他顺利创业。”站长网2023-12-15 17:38:570000