智源研究院开源JudgeLM 可评测各类大模型并输出评分
站长网2023-11-13 21:44:480阅
智源研究院开源了一种名为 JudgeLM 的裁判模型,可以高效准确地评判各类大模型。
与 GPT-4相比,JudgeLM 仅需1/120的成本,就能达到90% 以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景,并可以输出评分、判断和阐述理由。

通过创新方法,JudgeLM 与参考答案的一致性最高超过了90%,接近人类表现。JudgeLM 有三个不同参数版本,分别为70亿、130亿和330亿参数,能力和表现随着参数规模的增大而提升。
此外,智源研究院还开源了一个包含训练和验证样本的数据集,用于深入研究大语言模型裁判。JudgeLM 的评判效率高,成本低于基于 API 的评判方法。
未来,JudgeLM 团队将进一步完善这一裁判模型,提供更准确、高效、覆盖更多场景的大语言模型评判。
JudgeLM 相关资源:
github :https://github.com/baaivision/JudgeLM
arxiv :https://arxiv.org/abs/2310.17631
demo(33B) :https://218.91.113.230:9004/
0000
评论列表
共(0)条相关推荐
Stability AI CEO称:人工智能将成为有史以来最大的泡沫
StabilityAI的创始人兼CEOEmadMostaque分享了自己关于人工智能的观点。Mostaque认为,人工智能将成为有史以来最大的泡沫,并指出目前仍处于早期阶段,尚未准备好在银行等行业进行大规模采用。不过他表示这个泡沫甚至还没有开始。站长网2023-07-18 03:16:590000华为nova Flip今日正式开启预约
华为在7月30日宣布,其新一代折叠屏手机——novaFlip,将在今天下午16:08开放预约。尽管官方尚未透露具体价格,但根据市场预测,这款手机的起始售价预计在5000元左右,有望成为华为迄今为止定价最为亲民的折叠屏手机。作为nova系列的一员,该机型旨在吸引年轻消费者,其较低的售价和时尚的设计预计将吸引更多用户尝试折叠屏技术,从而扩大华为在折叠屏市场的份额。站长网2024-07-30 15:31:490000苹果将关闭“先买后付”服务ApplePayLater
站长之家(ChinaZ.com)6月18日消息:苹果公司近日宣布将关闭其在美国市场的PayLater项目,这一变动标志着苹果在内部金融服务领域的策略调整。原本允许客户分期付款的PayLater服务,将不再提供新的贷款,而是转向全球范围内推出新的分期贷款服务。站长网2024-06-18 18:25:260000苹果客服回应微信语音通话频繁中断:可能与程序崩溃有关
近期,多名网友在社交平台发帖反映,使用iPhone进行微信语音或视频通话时遭遇频繁中断的问题,尤其是当切换到其他应用程序时,通话会被立刻中断。据了解,出现问题的微信版本主要为8.0.53。0000视频号同城,新的赚钱红利!
各位村民好,我是村长微信视频号,即将迎来一波新的赚钱机会又来了。01同城将成为重要交易赛道这几年,传统电商和内容电商竞争异常激烈,眼见着头部电商平台的市场份额持续下降。而抖音作为内容电商、兴趣电商的代表,这几年四处开拓新战场。尤其是抖音上线了团购、外卖以后,对同城服务也带来了一些挑战。0000