首页站长资讯研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

研究人员称，即使是最糟糕Claude AI版本也比GPT 3.5更好

站长网2023-10-08 10:08:090阅

文章概要:

1. 全球排名显示，Anthropic的Claude AI模型超越了OpenAI的GPT3.5，即使是最差版本也表现出色。

2. Claude模型在性能评估中获得高分，主要由LMSO组织的Chatbot Arena Leaderboard进行排名。

3. Claude模型在处理大规模上下文输入和长提示时表现出优势，引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

10月6日，一场引人入胜的竞争正在AI行业内悄然展开，OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织（LMSO）刚刚更新了他们的Chatbot Arena排行榜，展示了每个AI聊天机器人与竞争对手相比的表现。结果显示，即使Anthropic的模型仍然免费使用，它也在性能上超越了OpenAI，成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎，以最高分数位居榜首，为大型语言模型（LLM）设定了黄金标准。但随着排行榜的下滑，一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色，超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜，GPT-4拥有1181的Arena Elo评分，远远领先于榜单，而Claude模型紧随其后，评分从1119到1155不等。另一方面，GPT-3.5的评分为1115。

为了排名这些模型，LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜，另一个模型失利。用户根据自己的喜好决定谁获胜，但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样，虽然这不是LMSO排名的因素，但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100，000个信息token，而由GPT-4LLM提供支持的ChatGPT Plus则处理8，192个令牌，"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势，这对于细致和丰富的用户体验至关重要。

此外，在处理长提示时，Claude2在效率上表现出优势，可以更有效地处理更大规模的提示。然而，在提示可比较的情况下，Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果，展示了这些模型的竞争性质。借助Claude的上下文功能，初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用，原因各种各样。它们可以在本地运行，使用户有机会对其进行微调，并使社区参与到完善模型的集体努力中。由于许可证的原因，它们运行成本更低，这就是为什么这个领域有数十种开源LLM模型，而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字，还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入，它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5，企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

研究人员称即使是最糟糕ClaudeAI版本也比GPT3 5更好

0000

评论列表

共(0)条

相关推荐

站长资讯
不用二选一了！消息称微信将登陆纯血鸿蒙：有用户收到回访电话
快科技7月23日消息，据国内媒体报道称，微信适配鸿蒙系统成果越来越近了，有用户近日已经收到了相关通知。报道中提到，有HarmonyOSNEXT测试用户自称接到了华为终端回访的电话，对方询问NEXT使用体验，问有没有当主力机以及为什么还不能当主力机的原因。
站长网2024-07-23 10:30:51
0001
站长资讯
苹果史诗级更新小硬盘用户狂喜！macOS 15.1允许应用安装到移动硬盘
快科技8月29日消息，在最新的macOS15.1测试版中，苹果放宽了软件下载的限制，允许将MacAppStore下载的超过1GB的应用程序安装到移动硬盘中使用。这项更新意味着用户可以更灵活地管理Mac的存储空间，以往，当Mac的内置存储空间不足以容纳大型软件时，用户往往需要删除其他文件或应用程序以腾出空间。现在，用户可以将大型应用程序安装到外置存储设备上，从而节省宝贵的内置存储空间。
站长网2024-08-31 16:49:33
0000
站长资讯
今天是小米手机13岁生日雷军：感谢米粉朋友支持与陪伴
今天上午，小米公司创始人雷军通过微博庆祝小米手机13周年纪念日，并向长期以来支持小米的米粉们表达了深深的感激之情。雷军在庆祝帖中动情地说，亲爱的米粉朋友们:今天是小米手机13岁的生日，2011年8月16日，小米手机第一款产品正式发布。自此之后，我们不断探索和进步，只为给大家带来更多优质的科技产品。小米始终坚持让全球每个人都能享受科技带来的美好生活”用影像发现美好、用科技探索美好!
站长网2024-08-16 09:13:09
0000
站长资讯
京东许冉：将于7月13日发布京东大模型
凤凰网科技讯7月5日消息，京东集团CEO许冉表示，将于7月13日举行的京东全球科技探索者大会暨京东云峰会上发布京东大模型，推出新一代数字基础设施，致力于服务千行百业跨越产业新智能。
站长网2023-07-06 05:18:28
0002
站长资讯
小米申请注册ChatMI、大模型商标
天眼查App显示，近日，小米科技有限责任公司申请注册科学仪器类“ChatMI”商标、运输工具类“小米大模型”商标，当前商标状态均为等待实质审查。此外，小米科技有限责任公司还申请注册多枚“CARIOT”“小米CARIOT”“XIAOMICARIOT”商标，国际分类包括运输贮藏、建筑修理、广告销售等，当前商标状态为等待实质审查。
站长网2024-01-17 13:57:30
0000