GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查
划重点:
💡 最近,研究人员提出了GENAUDIT,一种专门用于帮助核查基于文档基础的LLM回复的工具。
💡 GENAUDIT通过建议对语言模型生成的响应进行更改来发挥作用,并从参考文档中突出显示不符合要求的陈述,并建议对响应进行更改或删除。
💡 为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型,这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。
近年来,随着人工智能(AI)和主要是生成式AI领域的进展,已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本,回答问题,总结长篇文本段落等。然而,即使在访问参考资料之后,它们也不完美,可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。
为了解决这个问题,一组研究人员最近提出了GENAUDIT,这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述,并建议对响应进行更改或删除。它还提供了来自参考文本的证据,以支持LLM的事实陈述。

为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。GENAUDIT具有交互式界面,可帮助进行决策和用户交互。借助此界面,用户可以检查和批准推荐的调整和支持文件。
团队表示,已经通过人工评估对GENAUDIT进行了深入评估,评估人员通过检查它在多个类别中的表现来评估其性能,查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明,GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷,涵盖了多个领域。

为了优化GENAUDIT的错误检测性能,团队建议了一种技术,该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时,能够检测到大部分的故障。
团队总结了他们的主要贡献如下:
1.引入了GENAUDIT,这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据,找出了缺陷,并提供了解决方案。
2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当,尤其是与最先进的专有LLMs相比。
3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。
4.介绍并评估了一种在解码时间使用的技术,旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。
GENAUDIT是一款优秀的工具,有助于改善具有强大文档基础的任务中的事实核查程序,并提高LLM生成的信息在重要应用中的可靠性。
产品入口:https://top.aibase.com/tool/genaudit
巨额盈利“像捡钱”,从付费课到私董会,谁在为“海参哥们”买单?
璩静事件的大结局,将她的“导师”参哥再次推上风口浪尖。璩静因短视频风波发文道歉近期,百度公关1号位璩静勇闯抖音引发争议,以离职结束了她的个人IP第一次探索,有网友称璩静是上了参哥的课后“着魔”,动员部门所有人做短视频。据上游新闻报道,璩静曾在今年2月前往烟台,花5980元上了三天参哥的“抖音操盘手课”。随后参哥本人亲自盖章认证,发视频称两人的确见过面,聊得很愉快。站长网2024-05-15 14:03:100000AI视野:ChatGPT集成Canva插件;百度智能云千帆大模型平台2.0发布;讯飞星火大模型正式向全民开放
【模型动态】ChatGPT集成Canva插件Plus用户可以生成图片了!ChatGPT集成了Canva插件,使用户能够通过简单的文本提示快速创建视觉素材。Canva用户遍及全球190多个国家,月活跃用户超过7500万。要点:ChatGPT推出Canva插件,生成图片、视频等视觉内容。插件仅针对ChatGPTPlus订阅用户。数据显示Canva用户数庞大,月活跃用户超过7500万。站长网2023-09-05 16:50:510001闭门的微信公开课,讲了哪些视频号秘密?
过去每年开放大直播的微信公开课PRO,今年(2024)意外“闭门”,不再向业界公开。有工作人员在朋友圈中解释,是因为今年“公开课想要回归原点,忽略流量和热度,让公开课真正成为与开发者沟通的舞台”。尽管如此,每次公开课上释放的信息,却是业界关注对象,导致许多从业者四处打听。感谢许多在现场的朋友们提供帮助,不断拍照截图,记录现场信息并传递出来,我们才得以了解现场微信到底说了些什么。0001马斯克称Neuralink首次将芯片植入人体 患者恢复良好
**划重点:**1.🚀Neuralink首次成功将脑机接口植入人体,马斯克宣布患者「恢复良好」。2.💼第一个商用产品命名为Telepathy,马斯克展望其能实现用意念控制设备的功能。3.🧩Neuralink成立于2016年,估值约50亿美元,公司最终目标是创造全脑接口,将生物与人工智能更紧密连接。站长网2024-01-30 16:59:200001腾讯云TI平台正式上架 支持Llama 2等最新开源模型
据财联社消息,在今天上午的2023中国数字经济创新发展大会上,腾讯的高级执行副总裁、云与智慧产业事业群CEO汤道生宣布腾讯云TI平台(TencentCloudTIPlatform)的正式上架。站长网2023-08-16 14:21:440000