智源研究院开源JudgeLM 可评测各类大模型并输出评分

站长网2023-11-13 21:44:480阅

智源研究院开源了一种名为 JudgeLM 的裁判模型，可以高效准确地评判各类大模型。

与 GPT-4相比，JudgeLM 仅需1/120的成本，就能达到90% 以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景，并可以输出评分、判断和阐述理由。

通过创新方法，JudgeLM 与参考答案的一致性最高超过了90%，接近人类表现。JudgeLM 有三个不同参数版本，分别为70亿、130亿和330亿参数，能力和表现随着参数规模的增大而提升。

此外，智源研究院还开源了一个包含训练和验证样本的数据集，用于深入研究大语言模型裁判。JudgeLM 的评判效率高，成本低于基于 API 的评判方法。

未来，JudgeLM 团队将进一步完善这一裁判模型，提供更准确、高效、覆盖更多场景的大语言模型评判。

JudgeLM 相关资源:

github :https://github.com/baaivision/JudgeLM

arxiv :https://arxiv.org/abs/2310.17631

demo（33B） :https://218.91.113.230:9004/

智源研究院开源JudgeLM可评测各类大模型并输出评分

0000

评论列表

共(0)条

相关推荐

那个卖猪的丁磊又杀回来了
谁也没想到，12月13日以来，平淡已久的老牌互联网公司网易，以约5426亿港元超过美团，成为了中国市值第四大的互联网公司，仅次于腾讯、拼多多和阿里巴巴。过去一年来，网易市值持续逆势上涨，已相继超过京东和百度，重返巨头行列。就在11月30日，拼多多市值超越了阿里，引发行业热议，网易市值超美团则是一个与之相反的故事。前者是新贵超越了老牌，后者是没落贵族杀了回来，反超新贵。
站长网站长资讯2023-12-20 14:04:02
0000
真我Neo7 SE官宣：2000元以内最强性能神机
快科技2月17日消息，realme徐起宣布，真我Neo7SE即将发布，该机将挑战2000元以内最强性能神机。徐起表示，一直以来，Neo系列承载着颠覆中端市场的任务，更是广大用户心中独一无二的旗舰射门员”，所以即使压力很大，我们依旧希望能给到用户同档更领先的性能、设计，做更懂年轻人的电竞旗舰。
站长网站长资讯2025-02-17 10:48:42
0000
站长资讯
哈佛研究: GPT-4 可将工作质量提升超过40%！
划重点:-哈佛商学院的研究发现，GPT-4能够将员工的工作质量提高超过40%。-不熟练地使用AI可能会降低工作绩效高达19个百分点。-研究还区分了AI用户为“半人半马”和“半机械人”，探讨了不同的AI合作方式。根据来自哈佛商学院的一项新研究，GPT-4语言模型可以显著提高员工的工作质量，提高超过40%。然而，研究也发现，不熟练地使用人工智能可能会导致工作绩效下降高达19个百分点。
站长网2023-10-16 11:24:21
0004
站长资讯
3799元网友入手真我GT5 1TB顶配版：连网盘钱都省了
快科技9月6日消息，一位网友入手了真我GT524GB1TB顶配版，官方售价是3799元。他说，开了20多个APP，再回到第一个都没遇到杀后台的情况，比我上一台12GB手机强太多，以后也不用担心杀后台了;1TB的存储按照我的使用速度，估计也够我钉好几年了，连开网盘存照片的钱都省了。
站长网2023-09-06 21:36:25
0000
站长资讯
20元包下五年全网资源，疯狂盗版逼哭影视业
难以置信，现在的盗版已进化到了可以和正版“飙速度”的地步。
站长网2024-05-09 20:26:16
0000