阿里开源千亿参数模型 Qwen1.5-110B,性能超越 Meta-Llama3-70B
站长网2024-04-28 17:54:540阅
近日,阿里巴巴宣布开源其最新的 Qwen1.5系列语言模型 - Qwen1.5-110B。这是 Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。
据悉,Qwen1.5-110B采用了与其他Qwen1.5模型相同的Transformer解码器架构,并引入了分组查询注意力(GQA)机制,在模型推理时更加高效。该模型支持32K tokens的上下文长度,同时仍然是多语言的,支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。
与最近发布的SOTA语言模型Meta-Llama3-70B和Mixtral-8x22B进行对比,结果显示Qwen1.5-110B在基础能力方面至少与Llama-3-70B相媲美。
阿里巴巴表示,与之前发布的72B模型相比,在两个聊天模型的基准评估中,110B模型表现显著更好,这表明即使在没有大幅改变后训练方法的情况下,更强大、更大规模的基础语言模型也可以带来更好的聊天模型性能。
Qwen1.5-110B是Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色,并且明显优于72B模型。
0000
评论列表
共(0)条相关推荐
京东618将推出言犀虚拟主播 通过AI输出带货文案并自动播报
在今日的2023年京东618商家大会上,京东表示,今年618将是史上助力商家增长投入最多、举措最强的618。站长网2023-04-20 14:03:070000小杨哥鞠躬致歉梅菜扣肉事件:一定给大家一个满意的结果
近日,针对梅菜扣肉事件,小杨哥在直播间向消费者深深地鞠了一躬,表达了他的诚挚歉意。他明确表示,尽管厂家提供了诸多证明,证明所售五花肉并非槽头肉,但他们仍将以当地相关部门的最终认定结果为准,致力于给消费者一个满意的答复。为了保障消费者的权益,他们决定先行垫付退款,并在全额退款的基础上,严格按照相关法律法规进行售后处理。站长网2024-03-21 19:15:380000斯坦福大学:大模型“卷”错方向了?上下文窗口越长,模型越笨
在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。一般而言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。由于硬件和算法的最新进步,大模型的上下文窗口的长度也越来越“卷”。其中的卷王当属Anthropic公司,其五月份就将Claude的上下文窗口从9ktoken扩展到了100k。最近更新的Claude2更是让其100K的上下文能力“常驻”模型。站长网2023-07-28 14:05:130000萝卜快跑回应车内有摄像头:满足测试和监管的安全需求
近期,百度推出的无人驾驶出租车服务“萝卜快跑”成为了热门话题,许多网友分享了自己的搭乘体验,并对这一新兴服务表现出浓厚的兴趣。然而,随着服务的火热,一些网友提出了关于车内监控摄像头可能涉及的乘客隐私问题。对于这一疑虑,萝卜快跑的客服团队解释称,车辆上安装摄像头主要是为了满足测试监管和测试过程中的安全性需求。除非乘客主动请求查看监控视频,否则公司不会对录像数据进行搜集、存储或使用。站长网2024-07-11 17:56:270001AI文档阅读神器司马阅 通过聊天方式帮你精准获取关键信息
司马阅是一款基于AI技术的智能文档助手,可以上传PDF、Word等多种格式文档,通过语音或文字与文档进行交互,快速定位关键信息。比如可以帮你:1、分析一份合同的风险保护倾向2、总结一个行业报告的发展趋势3、判断一份专业简历的技能水平4、提炼一个产品手册的关键卖点5、概括一份研究论文的核心要点站长网2023-09-08 14:51:260000