Meta华人提出语言模型Shepherd 用于评估模型生成
站长网2023-08-15 14:14:080阅
最近,Meta AI 提出了一种新的语言模型叫做 "牧羊人"(Shepherd),用于评估其他模型生成的文本,并给出改进建议。这个模型使用了约70亿个参数,并通过社区反馈和人工标注的数据集来进行训练。
"牧羊人" 模型的评估结果显示,在与其他竞争模型进行比较时,它的平均胜率为53-87%,远高于其他模型。此外,在人工评估中,"牧羊人" 模型的表现也优于其他模型,与 ChatGPT 相当。
该模型的特点之一是能够生成自然语言的反馈,包括总体判断、一般建议以及领域知识等。它可以识别文本中的问题,如事实性、逻辑错误、连贯性和一致性,并提出改进建议。
论文地址:https://arxiv.org/pdf/2308.04592.pdf
为了微调和评估 "牧羊人" 模型,研究人员创建了一个高质量的反馈数据集,包括社区反馈和人工标注的反馈。通过使用 GPT-4作为评估工具,并选择了6个涵盖广泛主题和推理技能的数据集进行评估。
研究人员发现,"牧羊人" 模型在批判模型生成方面的能力优于其他模型,尤其是在提供正确判断的反馈方面。同时,社区反馈和人工标注的反馈数据对模型的性能有不同的影响,社区反馈更多样化但非正式,而人工标注的数据信息量更大。
总的来说,"牧羊人" 模型展示出了令人印象深刻的结果,在多个下游任务中表现优于其他模型。这一研究对于改进语言模型生成的可靠性非常有益。
语言模型的特点包括:
能够生成连贯、有语境和语义的文本。
能够识别问题,并提供改进建议。
可以涉及领域知识,给出相关的建议。
可以通过社区反馈和人工标注的数据进行微调和评估。
在批判模型生成方面表现优于其他模型。
在多个下游任务中的表现优于其他模型。
对不同类型的任务都能提供反馈。
0000
评论列表
共(0)条相关推荐
ChatDOC:一个基于ChatGPT的文件阅读助手
ChatDOC是一个可以快速从文档中提取、定位和总结信息的文件阅读助手,能够理解文本、表格和图像。ChatDOC可以帮助用户从各种格式的文档中获取所需的信息,如.pdf,.doc,.docx,.md,.epub,.txt,网站,扫描文件等。体验地址:https://chatdoc.com/站长网2023-10-24 21:58:27000120年老站博客园艰难求生 呼吁用户开通会员才能活下去
自2022年以来,中国知名技术博客网站博客园面临巨大生存危机。今年4月,博客园曾发出“绝境求商”的呼声,但随后几个月的时间里,博客园仅仅依靠用户捐助、天使投资和少量会员费用苦苦支撑。现在,博客园的存亡已陷入绝境。博客园日前官方发文《弹尽粮绝,会员救园:会员上线,命悬一线》。站长网2023-09-18 09:50:580000英国工党誓言打击“激进”AI聊天机器人
英国工党(英国议会第二大党)表示,将把那些出于邪恶目的(包括生成恐怖内容)训练聊天机器人的人定为犯罪。影子内政大臣伊薇特·库珀(YvetteCooper)表示,工党政府将与执法部门和情报界合作,“阻止聊天机器人的激进化”。站长网2023-07-19 19:18:300000GPT-5觉醒让全世界大佬都怕了 DeepMind紧急教AI做人
自从GPT-4发布以来,社会上关于“人类将要被AI毁灭”的言论也越来越多。全世界的AI大佬都害怕了,目前已有5万人签名了叫停GPT-5训练的公开信。为了防止我们一不小心被AI毁灭,DeepMind在美国国家科学院院刊上发表了一篇论文,该论文使用哲学家约翰罗尔斯的“无知之幕”概念来教AI如何做出道德决定。站长网2023-04-25 14:14:440000欧盟新AI法规太苛刻,OpenAI CEO有点慌威胁要离开
在欧盟准备新的人工智能规则之际,OpenAI的负责人已经在准备反击。OpenAI首席执行官SamAltman对欧盟提出的AI规则持批评态度,尤其是拟议法律中的一些措辞将ChatGPT和GPT4指定为高风险,Altman显然不同意这种描述。另外,拟议法律将要求为高风险指定模型提供高质量的数据集,以避免风险和歧视性结果。站长网2023-05-26 10:14:430000