智源研究院开源JudgeLM 可评测各类大模型并输出评分
站长网2023-11-13 21:44:480阅
智源研究院开源了一种名为 JudgeLM 的裁判模型,可以高效准确地评判各类大模型。
与 GPT-4相比,JudgeLM 仅需1/120的成本,就能达到90% 以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景,并可以输出评分、判断和阐述理由。
通过创新方法,JudgeLM 与参考答案的一致性最高超过了90%,接近人类表现。JudgeLM 有三个不同参数版本,分别为70亿、130亿和330亿参数,能力和表现随着参数规模的增大而提升。
此外,智源研究院还开源了一个包含训练和验证样本的数据集,用于深入研究大语言模型裁判。JudgeLM 的评判效率高,成本低于基于 API 的评判方法。
未来,JudgeLM 团队将进一步完善这一裁判模型,提供更准确、高效、覆盖更多场景的大语言模型评判。
JudgeLM 相关资源:
github :https://github.com/baaivision/JudgeLM
arxiv :https://arxiv.org/abs/2310.17631
demo(33B) :https://218.91.113.230:9004/
0000
评论列表
共(0)条相关推荐
库克总薪较前年缩水超3500万美元 同比下降 36%
苹果公司近日发布了年度报告,详细披露了公司高管薪酬、股东提案等重要信息。其中,首席执行官蒂姆·库克的薪酬成为关注的焦点。根据报告,库克在2023年的总收入为6320万美元,比2022年的9940万美元收入下降了约36%。虽然这一数字高于他2023年目标薪酬4900万美元,但与2022年的收入相比,仍然有所下滑。0001中消协规范网约车聚合平台:不得以不正当价格扰乱市场
中消协宣布,将围绕交通运输部等五部门,开展关于规范管理网约车聚合平台有关通知社会监督。中消协称,出行消费是消费者的重要生活消费场景。针对网约车聚合平台的兴起及快速发展,根据五部门《通知》和消费者权益保护法、电子商务法等法律法规,中国消费者协会认为相关网约车聚合平台及合作网约车平台公司应依法维护消费者合法权益,不断优化出行消费体验,同时呼吁广大消费者共同做好网约车聚合平台社会监督工作。站长网2023-08-21 16:18:440000中汽协回应特斯拉通过数据安全测试:内外车企一视同仁
快科技5月13日消息,据报道,中汽协常务副会长兼秘书长付炳锋表示,落实汽车数据处理安全是智能汽车发展的一个新的起点,第一批次所有送检的6家中外车企均自主报名参与,包括参加此轮检测的唯一外资车企特斯拉。协会秉持对所有送检车企车型一视同仁的原则,第一批检测特斯拉就参与进来了,也是抓到了一个机遇。特斯拉清楚地看到,未来自动驾驶的消费趋势会在中国大市场上率先兴起。站长网2024-05-13 14:58:000000小红书粉丝最多的品牌号,做对了什么?
最近,因为和中国邮政联名开店,蜜雪冰城又被年轻人疯狂玩梗。在小红书上,蜜雪冰城也主动用了“雪雪我啊,瞒不住了”这样的文案,来回应网友的调侃,单条笔记点赞达到8.7万,加上用户乐意将蜜雪冰城和瑞幸组CP,因此评论区精彩纷呈。“善于玩梗和接梗”的品牌气质,让蜜雪冰城在小红书收获了诸多好评,其开设的两个品牌账号,粉丝量皆位居小红书品牌号头部。@蜜雪冰城小红书笔记截图站长网2023-08-09 20:03:270000特斯拉宣布涨价!雷军:只有特斯拉敢涨价 足见其市场地位
近日,特斯拉中国传出消息,其旗下ModelY车型将在4月1日迎来价格调整,预计售价将上涨5000元人民币。这一消息引发了汽车行业内的广泛关注,特别是同为行业领军人物的雷军对此发表了看法。站长网2024-03-21 23:19:580000