智源研究院开源JudgeLM 可评测各类大模型并输出评分
站长网2023-11-13 21:44:480阅
智源研究院开源了一种名为 JudgeLM 的裁判模型,可以高效准确地评判各类大模型。
与 GPT-4相比,JudgeLM 仅需1/120的成本,就能达到90% 以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景,并可以输出评分、判断和阐述理由。
通过创新方法,JudgeLM 与参考答案的一致性最高超过了90%,接近人类表现。JudgeLM 有三个不同参数版本,分别为70亿、130亿和330亿参数,能力和表现随着参数规模的增大而提升。
此外,智源研究院还开源了一个包含训练和验证样本的数据集,用于深入研究大语言模型裁判。JudgeLM 的评判效率高,成本低于基于 API 的评判方法。
未来,JudgeLM 团队将进一步完善这一裁判模型,提供更准确、高效、覆盖更多场景的大语言模型评判。
JudgeLM 相关资源:
github :https://github.com/baaivision/JudgeLM
arxiv :https://arxiv.org/abs/2310.17631
demo(33B) :https://218.91.113.230:9004/
0000
评论列表
共(0)条相关推荐
国产中文大语言模型 “天河天元” 发布
近日,国家超算天津中心发布了立足国产天河超级算力和智能算力打造的“天河E级智能计算开放创新平台”和“天河天元大模型”。据了解,“天河E级智能计算开放创新平台”将带来突破百亿亿次的跨模态的超级计算算力。站长网2023-05-22 08:51:290000字节跳动推“Coze 扣子”AI Bot 开发平台 用户可搭建自己的聊天机器人
要点:1、字节跳动推出了「Coze扣子」AIBot开发平台,支持用户搭建自己的Chatbot,并一键发布到飞书、微信公众号等渠道。2、平台提供了Bots商店和插件,用户可以创建各种类型的聊天机器人,发布流程简洁。3、扣子平台功能丰富,包括无限拓展的能力集、丰富的数据源、持久化的记忆能力和灵活的工作流设计。站长网2024-02-01 14:15:570001世界新闻摄影大赛取消人工智能生成作品的投稿资格
**划重点:**1.🔄**规则变更**:世界新闻摄影大赛在数天内宣布接受人工智能生成图像投稿后,迅速受到反对,最终决定排除这类作品。2.📷**规则调整**:大赛将AI生成图像排除于“开放格式”类别,明确了对通过镜头相机制作的照片的图像编辑规则,拒绝使用某些生成AI模型的工具。站长网2023-11-22 10:44:100000华硕子公司发布福尔摩斯大模型Formosa Foundation Model
根据华硕官方消息,华硕旗下子公司台智云(TWS)在AIHPCconAI超算年会上发布了企业级大型语言模型——“福尔摩斯大模型”(FormosaFoundationModel)。“福尔摩斯大模型”共有1760亿个参数,可以与ChatGPT的GPT-3.5模型相媲美,支持多国语言。站长网2023-05-22 09:11:220001华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术
华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性。HarmonyOS4.0的流畅性将更进一步,UI动画也将更加丝滑,系统反应速度显著提升。据开发者透露,HarmonyOS4.0或将会新增LTPO自适应无极刷新率,支持1-120Hz自如调节,让屏幕流畅性和省电兼得。站长网2023-07-26 11:20:480000