GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查
划重点:
💡 最近,研究人员提出了GENAUDIT,一种专门用于帮助核查基于文档基础的LLM回复的工具。
💡 GENAUDIT通过建议对语言模型生成的响应进行更改来发挥作用,并从参考文档中突出显示不符合要求的陈述,并建议对响应进行更改或删除。
💡 为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型,这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。
近年来,随着人工智能(AI)和主要是生成式AI领域的进展,已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本,回答问题,总结长篇文本段落等。然而,即使在访问参考资料之后,它们也不完美,可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。
为了解决这个问题,一组研究人员最近提出了GENAUDIT,这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述,并建议对响应进行更改或删除。它还提供了来自参考文本的证据,以支持LLM的事实陈述。
为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。GENAUDIT具有交互式界面,可帮助进行决策和用户交互。借助此界面,用户可以检查和批准推荐的调整和支持文件。
团队表示,已经通过人工评估对GENAUDIT进行了深入评估,评估人员通过检查它在多个类别中的表现来评估其性能,查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明,GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷,涵盖了多个领域。
为了优化GENAUDIT的错误检测性能,团队建议了一种技术,该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时,能够检测到大部分的故障。
团队总结了他们的主要贡献如下:
1.引入了GENAUDIT,这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据,找出了缺陷,并提供了解决方案。
2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当,尤其是与最先进的专有LLMs相比。
3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。
4.介绍并评估了一种在解码时间使用的技术,旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。
GENAUDIT是一款优秀的工具,有助于改善具有强大文档基础的任务中的事实核查程序,并提高LLM生成的信息在重要应用中的可靠性。
产品入口:https://top.aibase.com/tool/genaudit
家居赛道一片火热,谁吃到了内容红利?
从房屋翻新到卧室改造,一直以来,与“家”相关联的内容总是能够获得年轻人的关注与青睐。打开抖音、B站、小红书等内容平台,与家居、房屋相关的内容有着相当高的热度。抖音话题#旧房改造播放量高达317.6亿;小红书上家居相关的笔记高达2955万篇,相关商品达到517万件,家居改造已经成为当下热门趋势内容,在这个过程中大量家居博主涌现。站长网2024-03-11 09:34:390000新研究:AI测谎能力比人类更强 但需谨慎使用
快科技7月15日消息,据媒体报道,德国维尔茨堡大学当地时间12日公布的最新研究显示,在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代,人工智能在测谎方面的表现比人类更佳。这项发表在《iScience》期刊上的研究,精心设计了一场实验:参与者被要求撰写周末计划,并巧妙设置半数人需撒谎以换取小额金钱奖励,共收集到来自768名参与者的1536份陈述。0000小鹏公布全新车型P7+:或采用纯视觉智驾
站长之家(ChinaZ.com)7月10日消息:小鹏汽车董事长何小鹏今日正式揭晓了小鹏家族全新成员“P7”的官方图片。新车无疑是小鹏汽车在设计美学上的新高度,前脸设计深度汲取了P7系列的精髓,标志性的断点式贯穿LED日行灯与分体式大灯相得益彰,搭配大面积封闭式前脸及智能主动闭合式进气格栅,不仅视觉效果出众,更在提升续航方面展现了前沿科技的应用。站长网2024-07-11 08:54:210000华为7月服务日开启:手机免费贴膜 99元换原装电池
华为推出了7月服务日活动,为消费者提供了六大专属权益。这一活动将在每个月的第一个周五、周六和周日连续三天进行。活动入口位于华为商城APP的“我的服务日”页面。在此次活动中,华为手机用户可以享受免费的贴膜、清洁、保养和系统升级服务,同时华为笔记本电脑、指定型号耳机和智能眼镜的用户也可以享受免费的外观清洁和保养服务。站长网2023-07-10 09:15:390000AI内容创作开卷,为什么百度文库成为超强玩家?
如今,学习办公、家庭教育和兼职赚钱三大场景的内容创作,用AI重构的百度文库能全搞定了。大语言模型发展至今,对各行各业的赋能程度越来越深,一些代表性产品正在改变甚至颠覆着整个行业。站长网2024-05-31 19:48:260000