Meta华人提出语言模型Shepherd 用于评估模型生成
站长网2023-08-15 14:14:080阅
最近,Meta AI 提出了一种新的语言模型叫做 "牧羊人"(Shepherd),用于评估其他模型生成的文本,并给出改进建议。这个模型使用了约70亿个参数,并通过社区反馈和人工标注的数据集来进行训练。
"牧羊人" 模型的评估结果显示,在与其他竞争模型进行比较时,它的平均胜率为53-87%,远高于其他模型。此外,在人工评估中,"牧羊人" 模型的表现也优于其他模型,与 ChatGPT 相当。
该模型的特点之一是能够生成自然语言的反馈,包括总体判断、一般建议以及领域知识等。它可以识别文本中的问题,如事实性、逻辑错误、连贯性和一致性,并提出改进建议。
论文地址:https://arxiv.org/pdf/2308.04592.pdf
为了微调和评估 "牧羊人" 模型,研究人员创建了一个高质量的反馈数据集,包括社区反馈和人工标注的反馈。通过使用 GPT-4作为评估工具,并选择了6个涵盖广泛主题和推理技能的数据集进行评估。
研究人员发现,"牧羊人" 模型在批判模型生成方面的能力优于其他模型,尤其是在提供正确判断的反馈方面。同时,社区反馈和人工标注的反馈数据对模型的性能有不同的影响,社区反馈更多样化但非正式,而人工标注的数据信息量更大。
总的来说,"牧羊人" 模型展示出了令人印象深刻的结果,在多个下游任务中表现优于其他模型。这一研究对于改进语言模型生成的可靠性非常有益。
语言模型的特点包括:
能够生成连贯、有语境和语义的文本。
能够识别问题,并提供改进建议。
可以涉及领域知识,给出相关的建议。
可以通过社区反馈和人工标注的数据进行微调和评估。
在批判模型生成方面表现优于其他模型。
在多个下游任务中的表现优于其他模型。
对不同类型的任务都能提供反馈。
0000
评论列表
共(0)条相关推荐
谷歌摸鱼神器来了:推出AI会议替身,一键总结提问发言
饱受会议折磨的打工人,终于可以解放了!就在刚刚举办的GoogleCloudNext’23大会上,谷歌宣布了一系列科技新进展,最瞩目的要属其中的“开会AI替身”了。只需要一句“帮我参加”,AI就能替你开会,并在合适的时机发言提问:这样一来,即使开会时摸鱼,也不怕老板突然点名了(手动狗头)有网友狂喜,要是真有这个AI数字替身帮我天天开会,我生产力直接拉满!站长网2023-08-31 09:05:470000AI克隆人,开始打工赚钱
今年3月底的某一天,在北京创业的王登科,突然有了一个强烈的想法——克隆自己。他很早就想做一个聊天机器人。今年以来,ChatGPT的爆火,llama和chatglm6b等开源模型的出现,让他觉得,或许是时候了。他决定试试看。站长网2023-06-26 23:42:470000名创买永辉,这笔惊人交易到底是怎么促成的
9月23日晚,名创优品在港交所发布公告,以63亿元从牛奶公司、京东世贸、宿迁涵邦(京东的一致行动人)手中收购永辉超市29.4%的股权,成为永辉第一大股东。该笔交易将以现金支付,计划于2025年上半年完成,同时名创优品入股不控股。当晚,名创召开电话会议,CEO叶国富和CFO张靖京解释了此次交易的一些核心考虑。简单来说有几个点:0000苹果公司要求三星和 LG Display 生产「无边框」OLED iPhone 显示屏
站长之家(ChinaZ.com)7月25日消息:据TheElec报道,苹果已要求其供应商为未来的iPhone型号开发「无边框」OLED显示面板。站长网2023-07-25 16:34:430000微软和 Epic合作,GPT-4 将用于寻找医疗记录的趋势
微软和EpicSystems宣布,正将OpenAI的GPT-4AI语言模型引入医疗保健领域,用于起草医护人员对患者的消息响应,并在寻找趋势的同时分析医疗记录。EpicSystems是美国最大的医疗保健软件公司之一。据报道,美国超过29%的急症医院使用其电子健康记录(EHR)软件(如MyChart),全球超过3.05亿患者在Epic中拥有电子记录。站长网2023-04-19 17:36:270001