智源研究院开源JudgeLM 可评测各类大模型并输出评分
站长网2023-11-13 21:44:480阅
智源研究院开源了一种名为 JudgeLM 的裁判模型,可以高效准确地评判各类大模型。
与 GPT-4相比,JudgeLM 仅需1/120的成本,就能达到90% 以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景,并可以输出评分、判断和阐述理由。
通过创新方法,JudgeLM 与参考答案的一致性最高超过了90%,接近人类表现。JudgeLM 有三个不同参数版本,分别为70亿、130亿和330亿参数,能力和表现随着参数规模的增大而提升。
此外,智源研究院还开源了一个包含训练和验证样本的数据集,用于深入研究大语言模型裁判。JudgeLM 的评判效率高,成本低于基于 API 的评判方法。
未来,JudgeLM 团队将进一步完善这一裁判模型,提供更准确、高效、覆盖更多场景的大语言模型评判。
JudgeLM 相关资源:
github :https://github.com/baaivision/JudgeLM
arxiv :https://arxiv.org/abs/2310.17631
demo(33B) :https://218.91.113.230:9004/
0000
评论列表
共(0)条相关推荐
王腾深圳之行引发关注:Redmi K70至尊版或将发布,性能新标杆
小米公司Redmi品牌总经理王腾近日在深圳露面,与当地研发团队共同审视即将推出的新产品。在之前的直播中,王腾已经透露,RedmiK70至尊版是由Redmi在深圳的研发团队精心打造的,并且与往年相比,这款产品的发布时间将会提前。王腾此次访问深圳,显然是为了RedmiK70至尊版的相关事宜,预示着这款新产品的上市已经指日可待。0000雷军:小米将公布智驾突破技术 明年汽车研发投入超300亿
快科技10月19日消息,在2024世界智能网联汽车大会,小米集团的董事长雷军表示,小米SU7将在本月全力冲刺2万辆的交付量。大会上,小米集团创始人、董事长雷军在演讲中表示,小米汽车2024研发投入预计达到240亿元,明年预计投入超过300亿元。雷军还称,在智驾方面,小米的目标是今年年底进入智能驾驶第一阵营,很快小米会公布在智能驾驶方面的进展和突破。0000上半年宁德时代电池出货141GWh 超所有韩国公司总和
据能源市场研究公司SNEResearch数据,今年上半年全球电池销量总计431.8GWh,总销售金额705亿美元,其中宁德时代出货141GWh,占比32.7%,销售金额201亿美元,占比28.5%,二项数据都是遥遥领先。排名第二的是LG新能源,出货量占比16.5%,销售额占比16.2%。比亚迪排在第三,出货量占比11.3%,销售额占比9.3%。站长网2023-09-29 21:40:040000又一个!北京智源推出通用视觉分割模型SegGPT
在2023中关村论坛平行论坛之一的人工智能大模型发展论坛上,北京智源人工智能研究院推出通用分割模型SegGPT(SegmentEverythingInContex),这是一个利用视觉提示(prompt)完成任意分割任务的通用视觉模型。SegGPT是智源通用视觉模型Painter的衍生模型,可针对分割一切物体的目标做出优化。站长网2023-05-30 09:37:450001法国初创公司 Mistral AI 免费发布高性能语言模型 Mistral7B
MistralAI,一家法国人工智能初创公司,最近发布了一款性能优越的语言模型Mistral7B,并免费向所有人提供使用。这一模型的性能在同等规模的模型中表现出色,用户可以完全免费下载和使用,没有任何限制。站长网2023-09-28 09:38:510000