Meta华人提出语言模型Shepherd 用于评估模型生成

站长网2023-08-15 14:14:080阅

最近，Meta AI 提出了一种新的语言模型叫做 "牧羊人"（Shepherd），用于评估其他模型生成的文本，并给出改进建议。这个模型使用了约70亿个参数，并通过社区反馈和人工标注的数据集来进行训练。

"牧羊人" 模型的评估结果显示，在与其他竞争模型进行比较时，它的平均胜率为53-87%，远高于其他模型。此外，在人工评估中，"牧羊人" 模型的表现也优于其他模型，与 ChatGPT 相当。

该模型的特点之一是能够生成自然语言的反馈，包括总体判断、一般建议以及领域知识等。它可以识别文本中的问题，如事实性、逻辑错误、连贯性和一致性，并提出改进建议。

论文地址:https://arxiv.org/pdf/2308.04592.pdf

为了微调和评估 "牧羊人" 模型，研究人员创建了一个高质量的反馈数据集，包括社区反馈和人工标注的反馈。通过使用 GPT-4作为评估工具，并选择了6个涵盖广泛主题和推理技能的数据集进行评估。

研究人员发现，"牧羊人" 模型在批判模型生成方面的能力优于其他模型，尤其是在提供正确判断的反馈方面。同时，社区反馈和人工标注的反馈数据对模型的性能有不同的影响，社区反馈更多样化但非正式，而人工标注的数据信息量更大。

总的来说，"牧羊人" 模型展示出了令人印象深刻的结果，在多个下游任务中表现优于其他模型。这一研究对于改进语言模型生成的可靠性非常有益。

语言模型的特点包括:

能够生成连贯、有语境和语义的文本。

能够识别问题，并提供改进建议。

可以涉及领域知识，给出相关的建议。

可以通过社区反馈和人工标注的数据进行微调和评估。

在批判模型生成方面表现优于其他模型。

在多个下游任务中的表现优于其他模型。

对不同类型的任务都能提供反馈。

Meta华人提出语言模型Shepherd用于评估模型生成

0000

评论列表

共(0)条

相关推荐

站长资讯
ChatDOC：一个基于ChatGPT的文件阅读助手
ChatDOC是一个可以快速从文档中提取、定位和总结信息的文件阅读助手，能够理解文本、表格和图像。ChatDOC可以帮助用户从各种格式的文档中获取所需的信息，如.pdf，.doc，.docx，.md，.epub，.txt，网站，扫描文件等。体验地址:https://chatdoc.com/
站长网2023-10-24 21:58:27
0001
站长资讯
20年老站博客园艰难求生呼吁用户开通会员才能活下去
自2022年以来，中国知名技术博客网站博客园面临巨大生存危机。今年4月，博客园曾发出“绝境求商”的呼声，但随后几个月的时间里，博客园仅仅依靠用户捐助、天使投资和少量会员费用苦苦支撑。现在，博客园的存亡已陷入绝境。博客园日前官方发文《弹尽粮绝，会员救园:会员上线，命悬一线》。
站长网2023-09-18 09:50:58
0000
站长资讯
英国工党誓言打击“激进”AI聊天机器人
英国工党（英国议会第二大党）表示，将把那些出于邪恶目的(包括生成恐怖内容)训练聊天机器人的人定为犯罪。影子内政大臣伊薇特·库珀（YvetteCooper）表示，工党政府将与执法部门和情报界合作，“阻止聊天机器人的激进化”。
站长网2023-07-19 19:18:30
0000
站长资讯
GPT-5觉醒让全世界大佬都怕了 DeepMind紧急教AI做人
自从GPT-4发布以来，社会上关于“人类将要被AI毁灭”的言论也越来越多。全世界的AI大佬都害怕了，目前已有5万人签名了叫停GPT-5训练的公开信。为了防止我们一不小心被AI毁灭，DeepMind在美国国家科学院院刊上发表了一篇论文，该论文使用哲学家约翰罗尔斯的“无知之幕”概念来教AI如何做出道德决定。
站长网2023-04-25 14:14:44
0000
站长资讯
欧盟新AI法规太苛刻，OpenAI CEO有点慌威胁要离开
在欧盟准备新的人工智能规则之际，OpenAI的负责人已经在准备反击。OpenAI首席执行官SamAltman对欧盟提出的AI规则持批评态度，尤其是拟议法律中的一些措辞将ChatGPT和GPT4指定为高风险，Altman显然不同意这种描述。另外，拟议法律将要求为高风险指定模型提供高质量的数据集，以避免风险和歧视性结果。
站长网2023-05-26 10:14:43
0000