Meta华人提出语言模型Shepherd 用于评估模型生成
站长网2023-08-15 14:14:080阅
最近,Meta AI 提出了一种新的语言模型叫做 "牧羊人"(Shepherd),用于评估其他模型生成的文本,并给出改进建议。这个模型使用了约70亿个参数,并通过社区反馈和人工标注的数据集来进行训练。
"牧羊人" 模型的评估结果显示,在与其他竞争模型进行比较时,它的平均胜率为53-87%,远高于其他模型。此外,在人工评估中,"牧羊人" 模型的表现也优于其他模型,与 ChatGPT 相当。
该模型的特点之一是能够生成自然语言的反馈,包括总体判断、一般建议以及领域知识等。它可以识别文本中的问题,如事实性、逻辑错误、连贯性和一致性,并提出改进建议。
论文地址:https://arxiv.org/pdf/2308.04592.pdf
为了微调和评估 "牧羊人" 模型,研究人员创建了一个高质量的反馈数据集,包括社区反馈和人工标注的反馈。通过使用 GPT-4作为评估工具,并选择了6个涵盖广泛主题和推理技能的数据集进行评估。
研究人员发现,"牧羊人" 模型在批判模型生成方面的能力优于其他模型,尤其是在提供正确判断的反馈方面。同时,社区反馈和人工标注的反馈数据对模型的性能有不同的影响,社区反馈更多样化但非正式,而人工标注的数据信息量更大。
总的来说,"牧羊人" 模型展示出了令人印象深刻的结果,在多个下游任务中表现优于其他模型。这一研究对于改进语言模型生成的可靠性非常有益。
语言模型的特点包括:
能够生成连贯、有语境和语义的文本。
能够识别问题,并提供改进建议。
可以涉及领域知识,给出相关的建议。
可以通过社区反馈和人工标注的数据进行微调和评估。
在批判模型生成方面表现优于其他模型。
在多个下游任务中的表现优于其他模型。
对不同类型的任务都能提供反馈。
0000
评论列表
共(0)条相关推荐
谷歌团队推出大型多模态生成模型 可处理多模态生物医学数据
尽管人工智能(AI)系统取得了重大进展,但大多数现有的最先进(SOTA)系统都是单模态单任务系统,这对开发医疗人工智能系统提出了挑战,因为医疗任务本质上是多模态且模式丰富涵盖文本、成像、基因组学等。站长网2023-08-05 16:26:360000OpenAI 的 GPT-4 变得「懒惰」和「愚蠢」:或被 MoE 彻底重塑导致性能下降
世界上最强大的人工智能模型似乎变得不那么强大了。这让业内人士开始谈论可能会对该系统进行重大重新设计。最近几周,OpenAI的GPT-4的用户们纷纷抱怨性能下降,有些人将这个模型与以前的推理能力和其他输出进行比较,称其变得「懒散」和「更笨」。站长网2023-07-14 09:50:370000李若彤再现小龙女!《剑侠世界3》年度版今日8:00公测
最新消息:西山居新一代剑侠情缘手游《剑侠世界3》今日8:00正式公测!李若彤、吕颂贤、李国麟三大明星联袂演绎《剑侠世界3》武侠系列大片致敬经典。在首支剧场版《峨眉风波》中,李若彤化身掌门人,使用古墓派剑法,与江湖剑客携手,共御神秘西域番僧踢馆!站长网2023-09-07 11:15:450000谷歌Chrome测试新跟踪保护功能可阻止第三方Cookie
划重点:1.📅2024年初,谷歌将在Chrome中测试新功能“追踪保护”,限制1%用户使用,旨在逐步淘汰第三方Cookie。2.🍪目标是通过默认限制网站对第三方Cookie的访问,防止其用于跟踪用户在不同网站之间的活动,特别是用于提供个性化广告。站长网2023-12-15 16:47:270000DIALGEN:人类与语言模型协作生成对话 可显著提升模型性能
自动理解人际对话的应用通常涉及与真实世界数据中的私人信息相关的挑战,例如呼叫中心或临床对话。处理受保护的数据还会增加注释的成本,限制技术的发展。为了应对这些挑战,微软近日联合华盛顿大学研发团队发布论文,公布了一款名为DIALGEN的产品,这是一种循环半自动对话生成框架。站长网2023-07-18 00:04:350000