Vectara排行榜:OpenAI的GPT-4在文档摘要中幻觉率最低
**划重点:**
1. 📊 Vectara的排行榜显示,OpenAI的GPT-4在文档摘要中具有最低的幻觉率,准确率为97%。
2. 🚀 GPT-4和GPT-4Turbo表现最佳,GPT-3.5Turbo排名第二,Meta Llama为最高得分的非OpenAI模型,而Google Palm排名最后。
3. 🛠 Vectara发布了开源模型,允许任何人检查其大型语言模型的幻觉率,以提高生成式AI系统的可信度。
在一项由Vectara进行的开源模型评估中,OpenAI的GPT-4在文档摘要中表现卓越,凭借其出色的97%准确率和令人瞩目的3%的幻觉率,成为幻觉率最低的大型语言模型。
Vectara在GitHub上发布了一个排行榜,评估了一些大型语言模型在其“Hallucination Evaluation Model”上的表现,该模型衡量了语言模型在摘要文档时引入幻觉的频率。
排名第一的是GPT-4和GPT-4Turbo,它们分别以97%的准确率和3%的幻觉率脱颖而出。另一款OpenAI模型,GPT-3.5Turbo,排名第二,其准确率为96.5%,幻觉率为3.5%。
在非OpenAI模型中,最高得分的是Meta的Llama2,具有70亿参数,准确率达到94.9%,幻觉率仅为5.1%。
然而,谷歌的模型表现相对较差,Google Palm2的准确率为87.9%,幻觉率为12.1%。Palm的聊天优化版本表现更差,准确率仅为72.8%,幻觉率则高达27.2%。
在摘要长度方面,Google Palm2Chat生成的平均摘要字数最高,达到惊人的221个字。相比之下,GPT-4仅生成每个摘要81个字。
Vectara是一家总部位于Palo Alto的公司,他们通过使用开源数据集培训了一个模型,以检测大型语言模型输出中的幻觉。该公司通过其公共API向每个模型提供了1000个短文档,并要求它们仅使用文档中呈现的事实进行摘要。
在这1000个文档中,只有831个被每个模型摘要,其余的文档由于内容限制被至少一个模型拒绝。Vectara随后计算了每个模型的总体准确率和幻觉率。
Vectara的“Hallucination Evaluation Model”是开源的,意味着企业可以使用它来评估其大型语言模型在检索增强生成(RAG)系统中的可信度。用户可以通过Hugging Face访问该模型,并根据自己的需求进行调整。
项目网址:https://huggingface.co/vectara/hallucination_evaluation_model
Shane Connelly,Vectara的产品负责人在博客中写道:“幻觉的风险阻碍了许多企业采用生成式AI。我们的目标是通过量化分析为企业提供他们需要的信息,使他们能够通过有信心地启用生成系统。”
前百度高管入局AI搜索,挑战Google和Perplexity,种子轮获6000万美元资金
在这个信息泛滥但缺乏有意义内容的时代,传统搜索引擎的表现常常不尽人意,用户被广告、垃圾邮件和偏见内容所困扰。Genspark的目标是打破这些旧有障碍,不仅要改进搜索技术,还要彻底改变用户访问和与信息互动的方式。Sense思考我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。-AI搜索提供更精准的个性化服务:站长网2024-07-17 17:07:1800004599元限量抢!Redmi K70 Pro冠军版12月28日再次开售
Redmi市场总经理王腾宣布,备受关注的RedmiK70Pro冠军版将于12月28日上午10:00再次开售。这款RedmiK70Pro冠军版是一款24GB1TB的版本,售价仅为4599元,相比标准版的K70Pro仅贵了200元。如此高性价比的版本,必然引发抢购热潮。0003微软必应更新增强 Skype 中的体育功能和加入 Bing Image Creator
微软日前在其Bing博客网站上发布了一份全新的Bing聊天开发更新。更新重点介绍了某些类别的改进,以及一个新的Skype功能。博文指出,Bing聊天现在对于寻找与体育相关的答案的用户来说应该更加有帮助:站长网2023-07-03 18:21:280000AI聊天机器人WikiChat:通过检索维基数据终结LLM幻觉 对话准确率比GPT-4高55%
**划重点:**1.🚀WikiChat通过维基百科检索数据,有效阻止大型语言模型的幻觉。2.🌐项目使用ColBERT进行信息检索,并通过七阶段流程确保响应准确。3.🌐WikiChat在与人类用户就最新话题进行对话时达到了97.9%的事实准确率,比GPT-4高55%站长网2024-01-09 11:32:240000《福布斯》推出新型人工智能搜索工具Adelaide 测试版
《福布斯》杂志日前推出了一个测试版的人工智能驱动搜索平台Adelaide,这是该公司迈向利用生成式人工智能为读者提供个性化服务的一个重要举措。站长网2023-10-27 09:59:000000