智源研究院开源JudgeLM 可评测各类大模型并输出评分
站长网2023-11-13 21:44:480阅
智源研究院开源了一种名为 JudgeLM 的裁判模型,可以高效准确地评判各类大模型。
与 GPT-4相比,JudgeLM 仅需1/120的成本,就能达到90% 以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景,并可以输出评分、判断和阐述理由。

通过创新方法,JudgeLM 与参考答案的一致性最高超过了90%,接近人类表现。JudgeLM 有三个不同参数版本,分别为70亿、130亿和330亿参数,能力和表现随着参数规模的增大而提升。
此外,智源研究院还开源了一个包含训练和验证样本的数据集,用于深入研究大语言模型裁判。JudgeLM 的评判效率高,成本低于基于 API 的评判方法。
未来,JudgeLM 团队将进一步完善这一裁判模型,提供更准确、高效、覆盖更多场景的大语言模型评判。
JudgeLM 相关资源:
github :https://github.com/baaivision/JudgeLM
arxiv :https://arxiv.org/abs/2310.17631
demo(33B) :https://218.91.113.230:9004/
0000
评论列表
共(0)条相关推荐
那个卖猪的丁磊又杀回来了
谁也没想到,12月13日以来,平淡已久的老牌互联网公司网易,以约5426亿港元超过美团,成为了中国市值第四大的互联网公司,仅次于腾讯、拼多多和阿里巴巴。过去一年来,网易市值持续逆势上涨,已相继超过京东和百度,重返巨头行列。就在11月30日,拼多多市值超越了阿里,引发行业热议,网易市值超美团则是一个与之相反的故事。前者是新贵超越了老牌,后者是没落贵族杀了回来,反超新贵。0000真我Neo7 SE官宣:2000元以内最强性能神机
快科技2月17日消息,realme徐起宣布,真我Neo7SE即将发布,该机将挑战2000元以内最强性能神机。徐起表示,一直以来,Neo系列承载着颠覆中端市场的任务,更是广大用户心中独一无二的旗舰射门员”,所以即使压力很大,我们依旧希望能给到用户同档更领先的性能、设计,做更懂年轻人的电竞旗舰。0000哈佛研究: GPT-4 可将工作质量提升超过40%!
划重点:-哈佛商学院的研究发现,GPT-4能够将员工的工作质量提高超过40%。-不熟练地使用AI可能会降低工作绩效高达19个百分点。-研究还区分了AI用户为“半人半马”和“半机械人”,探讨了不同的AI合作方式。根据来自哈佛商学院的一项新研究,GPT-4语言模型可以显著提高员工的工作质量,提高超过40%。然而,研究也发现,不熟练地使用人工智能可能会导致工作绩效下降高达19个百分点。站长网2023-10-16 11:24:2100043799元 网友入手真我GT5 1TB顶配版:连网盘钱都省了
快科技9月6日消息,一位网友入手了真我GT524GB1TB顶配版,官方售价是3799元。他说,开了20多个APP,再回到第一个都没遇到杀后台的情况,比我上一台12GB手机强太多,以后也不用担心杀后台了;1TB的存储按照我的使用速度,估计也够我钉好几年了,连开网盘存照片的钱都省了。站长网2023-09-06 21:36:250000