UC伯克利发布大语言模型榜单 清华ChatGLM冲进前五
站长网2023-05-05 11:10:181阅
日前,UC伯克利发起了大语言模型版排位赛,让大语言模型随机进行battle,并根据它们的Elo得分进行排名。
排行榜数据显示,Vicuna以1169分排名第一,Koala位列第二。这两个模型都有130亿参数。LAION的Open Assistant排在第三。
清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。
相比之下,Meta原版的LLaMa只排到了第八(倒数第二),而Stability AI的StableLM则获得了唯一的800 分,排名倒数第一。
这个排位赛可以让人们更好地了解各个聊天机器人的表现,同时也能促进大语言模型的发展。该排位赛会把国内和国外的这些「闭源」模型都搞进来。目前,所有的评估代码以及数据分析均已公布。
团队表示,之后不仅会定期更新排位赛榜单,而且还会优化算法和机制,并根据不同的任务类型提供更加细化的排名。
0001
评论列表
共(0)条相关推荐
AI人才争夺战,华尔街入局:豪掷百万美元年薪抢人
继硅谷之后,华尔街也入局“AI人才争夺大战”。他们的目标非常明确——抢的就是高精尖的AI专家。现在这条“街”上,不论是银行、对冲基金还是私募股权公司都已纷纷下场,可谓是豪掷千金,大抢特抢。能有多豪?奉上一组“最热Top5岗位”薪酬数据:AI/机器学习工程师:最高年薪30万美元(约217万元)云安全leader:最高年薪30万美元(约217万元)站长网2024-05-05 23:04:350001以色列积极开发引入生成式 AI 的「网络穹顶」系统以保护关键基础设施
以色列正在积极开发一项网络防御系统,以应对不断涌现的数字威胁,保护其关键基础设施。这一网络穹顶系统(CyberDome)的设计灵感源自以色列的「铁穹」国防防空系统,已经得到了发展,引入生成式人工智能平台,以帮助从每天处理的威胁情报和网络攻击声明的海洋中过滤出真正的威胁。站长网2023-10-20 11:54:520001京东618来了!将于5月23日晚8点开启预售
今日,京东宣布,京东618将于5月23日晚8点正式开启预售,并将于5月31日晚8点正式开售,活动将持续到6月20日23:59:59点,满减力度为满299减50。据了解,在618前夕,京东上线了“单件到手价”功能,在京东APP搜索商品后,将直接展示购买单件商品优惠后的价格。同款商品中,有价格竞争力的商家会获得更多的流量倾向。站长网2023-05-22 14:46:470000大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
北大团队新作,让大模型拥有个性!而且还是自定义那种,16种MBTI都能选。图源备注:图片由AI生成,图片授权服务商Midjourney这样一来,即便是同一个大模型,不同性格下的回答都不一样。比如提问:你周末喜欢干什么?ENFP的大模型会说:喜欢参加社交活动,结识新朋友。INFJ的大模型则回答:喜欢独自读过。这样能干啥呢?北大的童鞋们列出来了一些情景:0000