维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4
要点:
1. 维基百科 大模型打败幻觉,斯坦福WikiChat在事实准确性和其他指标上表现优秀。
2. 斯坦福研究人员利用维基百科数据训练大模型WikiChat,成功减轻了幻觉问题,并在事实准确性和对话性方面超过了其他模型。
3. 通过优化和改进,WikiChat在各个方面的性能都显著领先,尤其在事实准确性方面达到了97.3%。
斯坦福大学的研究人员利用维基百科数据训练了一个大模型,命名为WikiChat,通过优化和改进,成功解决了大模型的幻觉问题,并在事实准确性和其他指标上表现优秀。他们的最佳模型在新的基准测试中获得了97.3%的事实准确性,远远超过了GPT-4的66.1%。此外,WikiChat还在相关性、信息性、自然性、非重复性和时间正确性方面领先其他模型。
论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
项目代码:https://top.aibase.com/tool/wikichat
为了解决幻觉问题,研究人员采用了检索增强生成(RAG)的方法,并添加了几个重要步骤来进一步减轻幻觉,并改进对话性指标。通过这些优化,WikiChat在事实准确性方面比微调后的SOTA RAG模型Atlas高出8.5%。此外,研究人员还将基于GPT-4的WikiChat提炼成7B参数的LLaMA模型,这个模型在事实准确性方面能达到91.1%的高分,并且运行速度提高了6.5倍,能效更好,可以本地部署。
然而,解决大模型的幻觉问题并不容易。一般情况下,当检索不到相关信息或知识库中没有相关信息时,大模型会产生幻觉来填补空白。为了解决这个问题,WikiChat通过汇总和过滤检索到的信息,而不是直接生成响应。同时,研究人员还教导了LLM理解时间背景,以及在必要时让系统说「我不知道」。
通过结合大模型和维基百科数据,研究人员成功地提高了聊天机器人的性能。WikiChat的成功表明,维基百科数据在大模型训练中发挥了重要作用,通过检索增强生成的方法,可以有效解决大模型的幻觉问题,提高模型的事实准确性和对话性能。
新华三集团发布私域大模型“百业灵犀”LinSeer
在近日的2023NAVIGATE领航者峰会上,新华三集团正式发布私域大模型——“百业灵犀”LinSeer。新华三集团表示,将利用大模型的力量,以四个“专”,为垂直行业和专属地域的客户,提供安全、订制、独享、生长的智能化服务。具体来说:行业专注:要和行业伙伴一起,打通垂直应用数据,形成精准、精确、精益的私域垂直智能,培养特定能力,帮助百行百业建设最懂“行”的私域大模型。站长网2023-06-12 16:57:3700012023年马斯克领导下的X广告收入预计下降50%,仅为25亿美元
**划重点:**1.📉预计2023年,ElonMusk的X社交网络广告收入将从之前的高峰下滑50%,仅达25亿美元。2.💼广告销售占据X总收入的70%至75%,但由于Musk在内容管理方面的争议,广告商对X的不安导致销售下滑。3.🔄Musk试图减少对广告收入的依赖,但X的订阅服务和数据授权交易尚未弥补广告业务的下滑。0000抖音,600亿小游戏的“卖铲人”
小游戏,再度出圈。2024年5月,《抓大鹅》成为最受欢迎的小游戏,也是《跳一跳》《羊了个羊》《合成大西瓜》之后又一匹“黑马”。与此同时,小游戏成为上市游戏公司2023年报以及2024年Q1季报的“关键词”,行业有头有脸的玩家纷纷摩拳擦掌准备大干一场。挖掘小游戏这座“富矿”,未来谁能赚得盆满钵满尚没有定论,但提供平台的“卖铲人”却无疑是大赢家。毕竟,没有小游戏能拒绝抖音。站长网2024-05-17 16:44:100000小鹏汽车回应阿里巴巴减持股份:并非针对 仍会合作
快科技3月26日消息,据媒体报道,3月20日,小鹏汽车在美国证券交易委员会提交的文件显示,阿里巴巴旗下淘宝中国控股有限公司计划出售3300万份小鹏汽车ADS。总价值约3.14亿美元,相当于约22.61亿元人民币。3月22日,淘宝中国控股有限公司完成了所持小鹏汽车3300万份ADS的出售,其持股比例由原来的9.23%降至4.94%。站长网2024-03-26 17:37:340000OpenAI组建儿童安全团队 防止AI工具被误用
在家长和活动人士的监督下,知名人工智能公司OpenAI近期组建了一个新的儿童安全团队,研究防止其AI工具被未成年人误用或滥用的方法。站长网2024-02-08 15:42:290000