维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4
要点:
1. 维基百科 大模型打败幻觉,斯坦福WikiChat在事实准确性和其他指标上表现优秀。
2. 斯坦福研究人员利用维基百科数据训练大模型WikiChat,成功减轻了幻觉问题,并在事实准确性和对话性方面超过了其他模型。
3. 通过优化和改进,WikiChat在各个方面的性能都显著领先,尤其在事实准确性方面达到了97.3%。
斯坦福大学的研究人员利用维基百科数据训练了一个大模型,命名为WikiChat,通过优化和改进,成功解决了大模型的幻觉问题,并在事实准确性和其他指标上表现优秀。他们的最佳模型在新的基准测试中获得了97.3%的事实准确性,远远超过了GPT-4的66.1%。此外,WikiChat还在相关性、信息性、自然性、非重复性和时间正确性方面领先其他模型。
论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
项目代码:https://top.aibase.com/tool/wikichat
为了解决幻觉问题,研究人员采用了检索增强生成(RAG)的方法,并添加了几个重要步骤来进一步减轻幻觉,并改进对话性指标。通过这些优化,WikiChat在事实准确性方面比微调后的SOTA RAG模型Atlas高出8.5%。此外,研究人员还将基于GPT-4的WikiChat提炼成7B参数的LLaMA模型,这个模型在事实准确性方面能达到91.1%的高分,并且运行速度提高了6.5倍,能效更好,可以本地部署。
然而,解决大模型的幻觉问题并不容易。一般情况下,当检索不到相关信息或知识库中没有相关信息时,大模型会产生幻觉来填补空白。为了解决这个问题,WikiChat通过汇总和过滤检索到的信息,而不是直接生成响应。同时,研究人员还教导了LLM理解时间背景,以及在必要时让系统说「我不知道」。
通过结合大模型和维基百科数据,研究人员成功地提高了聊天机器人的性能。WikiChat的成功表明,维基百科数据在大模型训练中发挥了重要作用,通过检索增强生成的方法,可以有效解决大模型的幻觉问题,提高模型的事实准确性和对话性能。
马云持股公司获食品销售许可 此前马云成立农业品牌“一米八”
近日,一米八食品科技(浙江)有限公司获得新的行政许可,可以销售预包装(普通)食品、散装食品(不含熟食制品)以及保健食品,这一许可由杭州市西湖区市场监督管理局颁发。站长网2024-01-23 14:11:270003这些软件千万别再用了
#头条创作挑战赛#根据工业和信息化部门通信管理局报到,这46款APP已存在侵害用户权益行为。这些APP有已超范围收集个人信息,强制,频繁,过度索取权限,违规收集个人信息,收集个人信息告知不到位的等等。国家对APP早有规定,App不应收集与业务功能无任何关系的个人信息,收集个人信息应明示收集目的、方式、范围,收集使用个人信息应经用户自主选择同意,不应存在强制捆绑授权行为。站长网2023-04-14 17:01:220000Salesforce 领投 AI 初创公司 Hugging Face 融资:估值超过 40 亿美元
据TheInformation报道,两位知情人士透露,Salesforce正在领投HuggingFace的一轮融资,HuggingFace是帮助企业使用人工智能的估值最高的初创公司之一,估值超过40亿美元。站长网2023-08-23 18:08:380000微软向云计算客户提供 AMD 替代 Nvidia AI 处理器
划重点:-微软计划为云计算客户提供AMD人工智能芯片,与Nvidia竞争,详细信息将在下周的开发者大会上公布。-微软将推出新型Cobalt100定制处理器的预览,预计性能比其他基于ArmHoldings技术的处理器高出40%。-AMD人工智能芯片集群MI300X将通过Azure云计算服务销售,为客户提供Nvidia的替代方案。站长网2024-05-17 16:44:100000雷军:小米SU7全年交付目标超过10万辆
小米集团总裁卢伟冰今日(23日)在其微博发文中披露了关于小米汽车SU7的重要消息。根据卢伟冰的分享,小米集团创办人、董事长兼CEO雷军在近期的小米投资者大会上透露,截至4月20日,小米SU7的锁单量已经突破了令人瞩目的7万台大关。这一成绩充分展现了消费者对小米汽车的高度期待与热情。站长网2024-04-23 15:52:350000