UC伯克利发布大语言模型榜单 清华ChatGLM冲进前五
站长网2023-05-05 11:10:181阅
日前,UC伯克利发起了大语言模型版排位赛,让大语言模型随机进行battle,并根据它们的Elo得分进行排名。
排行榜数据显示,Vicuna以1169分排名第一,Koala位列第二。这两个模型都有130亿参数。LAION的Open Assistant排在第三。

清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。
相比之下,Meta原版的LLaMa只排到了第八(倒数第二),而Stability AI的StableLM则获得了唯一的800 分,排名倒数第一。
这个排位赛可以让人们更好地了解各个聊天机器人的表现,同时也能促进大语言模型的发展。该排位赛会把国内和国外的这些「闭源」模型都搞进来。目前,所有的评估代码以及数据分析均已公布。
团队表示,之后不仅会定期更新排位赛榜单,而且还会优化算法和机制,并根据不同的任务类型提供更加细化的排名。
0001
评论列表
共(0)条相关推荐
再造播客“元年”,喜马拉雅如何助推播客扩宽赛道?
2020、2021被普遍认为是播客“元年”,播客节目以及收听观众爆发式增长,喜马拉雅等音频平台大力布局播客内容,市场上出现专门的播客平台。站长网2023-05-12 10:53:040000Redmi最完美的性能机皇!一图了解Redmi K70至尊版:2599元起
快科技7月19日消息,今日晚间,RedmiK70至尊版正式发布,起售价是2599元。这是Redmi迄今为止最完美的性能大作,该机搭载了天玑9300旗舰级移动平台,还配备了LPDDR5X内存与UFS4.0闪存,与天玑9300组成新一代性能铁三角。而且得益于天玑9300与D1独显芯片的强大性能,游戏超帧超分可以在RedmiK70至尊版上同时开启,超高流畅度与超高清晰度同时兼得。站长网2024-07-20 23:34:340000ARR千万美金,找到PMF的toC AI产品又多了一个?
前几天刷小红书,刷到一个帖子讨论有哪些toC的AI产品跑通了PMF。验证市场需求,绊倒了不少创业者,而找到PMF的产品们,被其他人拿来反复研究。小红书上讨论已经验证市场需求的面向C端用户的AIGC产品|图片来源:小红书用户晓音的帖文截图(侵删)站长网2024-08-16 08:53:170001国产百亿大模型再增一员!400亿参数孟子GPT发布,各项任务平均提升10-15%
刚刚,国产大模型明星选手孟子GPT上新!400亿参数通用大模型正式发布,已开启邀测。数据显示,孟子GPT-40B版本全面领先7B版本,大约提升10-15个百分点。并超越部分国内大模型,在多语言任务等方面接近ChatGPT-3.5。孟子GPT来自澜舟科技,其创始人为NLP领域大牛周明。自21年成立以来,澜舟科技先后发布孟子系列模型、MChat以及多个垂直领域模型,并拿下数亿元融资。站长网2023-08-28 09:09:450000达人营销,走向小V时代
“不是大V投不起,而是小V更有性价比。”在如今的品牌营销圈,这句话转身成为了名言。经历大主播折戟翻车、大博主报价虚高、头部达人带货水平不对板等种种乱象披露之后,处于降本增效的市场大环境中的品牌们开始将营销策略改为求稳,目光转向更具性价比的中小达人。站长网2023-12-19 11:58:090000