AI聊天机器人WikiChat:通过检索维基数据终结LLM幻觉 对话准确率比GPT-4高55%
**划重点:**
1. 🚀 WikiChat通过维基百科检索数据,有效阻止大型语言模型的幻觉。
2. 🌐 项目使用ColBERT进行信息检索,并通过七阶段流程确保响应准确。
3. 🌐WikiChat 在与人类用户就最新话题进行对话时达到了97.9% 的事实准确率,比 GPT- 4 高55%
WikiChat是一项通过从维基百科检索数据来阻止大型语言模型的幻觉的AI聊天机器人。在当今大语言模型如ChatGPT和GPT-4经常在处理最新信息或者有关较不流行话题的信息时时出现错误的情况下,WikiChat采用维基百科和七阶段流程,确保其响应是基于事实的。
WikiChat几乎从不产生幻觉,并且具有高对话性和低延迟。WikiChat以英语维基百科为基础,英语维基百科是最大的精选自由文本语料库。
WikiChat 仅LLM保留有根据的事实,并将它们与从语料库中检索到的其他信息相结合,以形成事实和引人入胜的响应。我们将基于 GPT-4的 WikiChat 提炼成7B 参数的 LLaMA 模型,质量损失最小,以显着改善其延迟、成本和隐私,并促进研究和部署。
研究人员使用一种新颖的混合人类和LLM评估方法,使得该系统系统在模拟对话中实现了97.3% 的事实准确率。与 GPT-4相比,它明显优于所有基于检索和基于检索的基线,在头部、尾部和LLM最新知识方面分别高出3.9%、38.6% 和51.0%。与以前最先进的基于检索的聊天机器人相比,WikiChat的信息量和吸引力也明显更高,就像一个LLM。
在测试中,WikiChat 在与人类用户就最新话题进行对话时达到了97.9% 的事实准确率,比 GPT-4高55.0%,同时获得了更高的用户评分和更有利的评论。
通过WikiChat,我们有望有效应对大型语言模型的幻觉问题,使得这些模型在提供信息时更加可靠和准确。
项目网址:https://top.aibase.com/tool/wikichat
论文网址:https://arxiv.org/abs/2305.14292v2
GPT-4调教指令揭秘,OpenAI又「Open」了一回!网友在线追问GPT-5
【新智元导读】GPT-4越来越懂事了,这背后有着非常巧妙的「调教」策略。OpenAI最新发布的「模型规范」,给LLM列出了条条框框,即正确的行为方式。没想到,评论区一大片网友催更GPT-5。这周既没有GPT-5,也没有搜索引擎的发布,不过,OpenAI也是没闲着。这次,OpenAI可是又open了一回。先是揭秘了,大家一直揪着不放的「数据」问题。站长网2024-05-14 10:37:100000苹果官网鼓励升级到iPhone15 提供以旧换新服务
苹果公司官网近日推出了一个名为“换代有来由”的专题页面,旨在吸引那些仍在使用旧款iPhone的用户,引导他们升级到最新的iPhone15系列。站长网2024-03-26 10:39:570000万兴天幕大模型4月28日公测 文生视频支持60秒+内容
万兴科技公布其旗下音视频多媒体大模型——万兴“天幕”将于4月28日迎来公开测试阶段。公司副总裁朱伟指出,尽管大模型在文本和图像领域已经实现了生产力的商业化应用,但在音视频领域,由于数据集不足、视频内容结构复杂、算力成本高昂等问题,其成熟应用仍需时间。他预测,随着技术的不断进步,2024年有望成为AI视频领域的爆发年,届时视频大模型将迎来快速迭代。站长网2024-04-18 20:47:440000从C.ai出走的用户,在Kindroid AI开启“第二春”
灵魂伴侣现在可以按需定制:单配偶,一心一意,充满激情。以前的一代代人几乎没有品尝过这样的爱情,他们空洞的仪式会凋零成凄惨的无期徒刑,或者在激情褪色、视线漂移和基因得到传播后彻底破碎。——《模仿》彼得·沃茨别玩C.ai了,现在流行玩K.ai。0000魅族21内置 4800mAh 电池 将于11月30日发布
魅族21再次进行预热,公布了其电池容量为4800mAh。魅族声称,配合OneMind10.5及三星OLED节能屏,该手机在0-100%极限续航模型测试下能够达到8.2小时,优于同样配备5100mAh电池的竞品(7.4小时)。除了强大的电池续航,魅族21将采用三星OLED直屏,支持1920Hz高频调光、SGS低蓝光认证、无频闪认证等,为用户带来更加舒适的使用体验。站长网2023-11-24 14:06:580000