Meta华人提出语言模型Shepherd 用于评估模型生成
站长网2023-08-15 14:14:080阅
最近,Meta AI 提出了一种新的语言模型叫做 "牧羊人"(Shepherd),用于评估其他模型生成的文本,并给出改进建议。这个模型使用了约70亿个参数,并通过社区反馈和人工标注的数据集来进行训练。
"牧羊人" 模型的评估结果显示,在与其他竞争模型进行比较时,它的平均胜率为53-87%,远高于其他模型。此外,在人工评估中,"牧羊人" 模型的表现也优于其他模型,与 ChatGPT 相当。
该模型的特点之一是能够生成自然语言的反馈,包括总体判断、一般建议以及领域知识等。它可以识别文本中的问题,如事实性、逻辑错误、连贯性和一致性,并提出改进建议。

论文地址:https://arxiv.org/pdf/2308.04592.pdf
为了微调和评估 "牧羊人" 模型,研究人员创建了一个高质量的反馈数据集,包括社区反馈和人工标注的反馈。通过使用 GPT-4作为评估工具,并选择了6个涵盖广泛主题和推理技能的数据集进行评估。
研究人员发现,"牧羊人" 模型在批判模型生成方面的能力优于其他模型,尤其是在提供正确判断的反馈方面。同时,社区反馈和人工标注的反馈数据对模型的性能有不同的影响,社区反馈更多样化但非正式,而人工标注的数据信息量更大。

总的来说,"牧羊人" 模型展示出了令人印象深刻的结果,在多个下游任务中表现优于其他模型。这一研究对于改进语言模型生成的可靠性非常有益。
语言模型的特点包括:
能够生成连贯、有语境和语义的文本。
能够识别问题,并提供改进建议。
可以涉及领域知识,给出相关的建议。
可以通过社区反馈和人工标注的数据进行微调和评估。
在批判模型生成方面表现优于其他模型。
在多个下游任务中的表现优于其他模型。
对不同类型的任务都能提供反馈。
0000
评论列表
共(0)条相关推荐
《黑神话:悟空》大火:三天预售额超亿元!8月20日正式上线
快科技6月15日消息,国产3A游戏《黑神话:悟空》在6月8日正式开启预购,登陆Steam、Epic、腾讯WeGame平台。该作提供数字标准版和数字豪华版两种版本,售价分别为268元和328元,开售之后光速登顶Steam全球榜;在Wegame上也迅速包揽了排行榜的冠亚军。6月10日晚8点,《黑神话:悟空》实体版正式开启全款预售,预售开启不到5分钟,所有产品即宣告售罄。站长网2024-06-16 03:19:370000特斯拉 Model 3 焕新版开售 预计将于10月底交付
特斯拉Model3焕新版今日正式上市,其中后轮驱动版售价25.99万元起,长续航全轮驱动版售价29.59万元起,预计将于10月底交付用户。新车拥有升级的外观和内饰设计、更长的续航里程、更快的百公里加速时间、以及全新的悬架系统。站长网2023-10-19 11:18:020000最忙婚庆黄金周:8天赚8万,7天办22场婚礼,一天只睡3小时
距离国庆假期还有10天,“8天假期7场酒席”的话题,便登上了微博热搜。这个热词的主人公是个刚参加工作的00后,7场酒席意味着不少份子钱,她因此发文吐槽,引起了不少共鸣。“金九银十”不仅仅是招聘行业的现象,对一婚礼行业也是如此。从9月下旬到10月上旬,国内大部分地区不再忍受盛夏的酷热,寒冬也未到,秋风送爽,气候舒适,对于浪漫的爱情婚姻是收获的季节,也是最适合结婚的日子。站长网2023-10-04 09:33:370000微软下一代 Surface 笔记本电脑将是首款真正意义上的「AI PC」
根据WindowsCentral的报道,微软正准备通过新的人工智能功能升级其Surface产品线。未具名消息来源告诉该媒体,即将推出的SurfacePro10和SurfaceLaptop6将配备下一代神经处理单元(NPU),以及基于Intel和Arm的选项。0000亚马逊将向 OpenAI 竞争对手 Anthropic 追加投资 40 亿美元
亚马逊于当地时间周五宣布,将额外向由前OpenAI研究高管创立的人工智能初创公司Anthropic投资40亿美元。图片来自Anthropic站长网2024-11-25 12:30:590000