Vectara排行榜:OpenAI的GPT-4在文档摘要中幻觉率最低

站长网2023-11-22 10:44:140阅

**划重点:**

1. 📊 Vectara的排行榜显示，OpenAI的GPT-4在文档摘要中具有最低的幻觉率，准确率为97%。

2. 🚀 GPT-4和GPT-4Turbo表现最佳，GPT-3.5Turbo排名第二，Meta Llama为最高得分的非OpenAI模型，而Google Palm排名最后。

3. 🛠 Vectara发布了开源模型，允许任何人检查其大型语言模型的幻觉率，以提高生成式AI系统的可信度。

在一项由Vectara进行的开源模型评估中，OpenAI的GPT-4在文档摘要中表现卓越，凭借其出色的97%准确率和令人瞩目的3%的幻觉率，成为幻觉率最低的大型语言模型。

Vectara在GitHub上发布了一个排行榜，评估了一些大型语言模型在其“Hallucination Evaluation Model”上的表现，该模型衡量了语言模型在摘要文档时引入幻觉的频率。

排名第一的是GPT-4和GPT-4Turbo，它们分别以97%的准确率和3%的幻觉率脱颖而出。另一款OpenAI模型，GPT-3.5Turbo，排名第二，其准确率为96.5%，幻觉率为3.5%。

在非OpenAI模型中，最高得分的是Meta的Llama2，具有70亿参数，准确率达到94.9%，幻觉率仅为5.1%。

然而，谷歌的模型表现相对较差，Google Palm2的准确率为87.9%，幻觉率为12.1%。Palm的聊天优化版本表现更差，准确率仅为72.8%，幻觉率则高达27.2%。

在摘要长度方面，Google Palm2Chat生成的平均摘要字数最高，达到惊人的221个字。相比之下，GPT-4仅生成每个摘要81个字。

Vectara是一家总部位于Palo Alto的公司，他们通过使用开源数据集培训了一个模型，以检测大型语言模型输出中的幻觉。该公司通过其公共API向每个模型提供了1000个短文档，并要求它们仅使用文档中呈现的事实进行摘要。

在这1000个文档中，只有831个被每个模型摘要，其余的文档由于内容限制被至少一个模型拒绝。Vectara随后计算了每个模型的总体准确率和幻觉率。

Vectara的“Hallucination Evaluation Model”是开源的，意味着企业可以使用它来评估其大型语言模型在检索增强生成（RAG）系统中的可信度。用户可以通过Hugging Face访问该模型，并根据自己的需求进行调整。

项目网址:https://huggingface.co/vectara/hallucination_evaluation_model

Shane Connelly，Vectara的产品负责人在博客中写道:“幻觉的风险阻碍了许多企业采用生成式AI。我们的目标是通过量化分析为企业提供他们需要的信息，使他们能够通过有信心地启用生成系统。”

Vectara排行榜OpenAI的GPT4在文档摘要中幻觉率最低

0000

评论列表

共(0)条

相关推荐

小米现金储备1516亿雷军称小米交出史上业绩
昨日，小米集团宣布了2024年第三季度的财务报告，其中收入达到925亿元人民币，利润为63亿元，创下公司历史上最佳季度业绩。在过去的三个季度中，小米的收入同比增长率分别为27.0%、32.0%和30.5%，显示出公司强劲的增长势头。在现金流方面，小米目前持有1516亿元人民币，同时在研发领域的投入超过60亿元，同比增长近20%。研发团队规模也达到了20436人，显示公司对创新和技术发展的重视。
站长网站长资讯2024-11-21 07:28:13
0000
谷歌Pixel系列史上价格最贵： Pixel8a售价破6000
据最新消息，谷歌的Pixela系列手机将在下一代产品中涨价成为历代a系列机型中最贵的一款。尽管Pixel7a可以看作是Pixel6a的重大升级，但其价格从449美元上涨到499美元仍然合理。
站长网站长资讯2024-03-07 08:38:40
0000
站长资讯
AI，正在疯狂污染中文互联网
AI也反噬了自己污染中文互联网，AI成了“罪魁祸首”之一。事情是这样的。最近大家不是都热衷于向AI咨询嘛，有位网友就问了Bing这么一个问题:象鼻山是否有缆车?Bing也是有问必答，给出了看似挺靠谱的答案:在给出肯定的答复之后，Bing还贴心地附带上了票价、营业时间等细节信息。不过这位网友并没有直接采纳答案，而是顺藤摸瓜点开了下方的“参考链接”。
站长网2023-06-20 17:58:20
0000
站长资讯
“苹果入局大模型？我深挖到了一些细节”
在今年早些时候的WWDC上，苹果宣布即将推出的iOS和macOS版本将配备一项由“Transformer语言模型”提供支持的新功能，这个功能和很多AIGC工具一样，方便用户在输入文字时，提供由AI生成的文本建议。
站长网2023-09-20 09:12:29
0000
孟羽童谈做博主后的收入：商业机密这个不能说
快科技3月8日消息，据国内媒体报道，近日，孟羽童接受采访，谈到了她做博主后的收入问题。她表示工作后给妈妈买的最贵的东西是珠宝，我让妈妈去刷我的卡，让她去买她想买的东西，我那个时候其实是很有成就感的，有那种霸道总裁的感觉。”对于她转型博主后的收入问题，孟羽童称这个不能透露，算是商业机密。
站长网站长资讯2024-03-09 17:01:51
0000