研究人员称,即使是最糟糕Claude AI版本也比GPT 3.5更好
文章概要:
1. 全球排名显示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表现出色。
2. Claude模型在性能评估中获得高分,主要由LMSO组织的Chatbot Arena Leaderboard进行排名。
3. Claude模型在处理大规模上下文输入和长提示时表现出优势,引发了对AI聊天机器人在不同领域的实际应用的重要讨论。
10月6日,一场引人入胜的竞争正在AI行业内悄然展开,OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织(LMSO)刚刚更新了他们的Chatbot Arena排行榜,展示了每个AI聊天机器人与竞争对手相比的表现。结果显示,即使Anthropic的模型仍然免费使用,它也在性能上超越了OpenAI,成为了新的全球排名领头羊。
GPT-4是ChatGPT Plus和Bing AI背后的强大引擎,以最高分数位居榜首,为大型语言模型(LLM)设定了黄金标准。但随着排行榜的下滑,一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色,超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。
LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜,GPT-4拥有1181的Arena Elo评分,远远领先于榜单,而Claude模型紧随其后,评分从1119到1155不等。另一方面,GPT-3.5的评分为1115。
为了排名这些模型,LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜,另一个模型失利。用户根据自己的喜好决定谁获胜,但他们永远不会知道哪些模型在竞争。
正如Decrypt之前报道的那样,虽然这不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。
基于Claude2LLM的Claude Pro可以处理高达100,000个信息token,而由GPT-4LLM提供支持的ChatGPT Plus则处理8,192个令牌,"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势,这对于细致和丰富的用户体验至关重要。
此外,在处理长提示时,Claude2在效率上表现出优势,可以更有效地处理更大规模的提示。然而,在提示可比较的情况下,Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果,展示了这些模型的竞争性质。借助Claude的上下文功能,初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。
开源模型在这场竞赛中也不遑多让。
WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。
开源模型在AI领域的发展中发挥着重要作用,原因各种各样。它们可以在本地运行,使用户有机会对其进行微调,并使社区参与到完善模型的集体努力中。由于许可证的原因,它们运行成本更低,这就是为什么这个领域有数十种开源LLM模型,而只有少数专有模型的原因。
但AI聊天机器人的比赛不仅仅关乎数字,还关乎现实世界的影响。
随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入,它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5,企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。
Sam Altman 重新掌舵 OpenAI,新一届董事会迎来重大变革
经历数日危机与混乱后,SamAltman重返OpenAI担任首席执行官。OpenAI董事会经历重大调整,三位新成员取代了先前罢免Altman的领导层。据报道,OpenAI新董事会尚未最终确定。目前正在与微软及其他重要投资方进行谈判,以确定其在董事会中的代表权。微软此前已向OpenAI投资数十亿美元。站长网2023-11-23 09:09:080000Midjourney发布V5.2版本 新增“Zoom out”画面扩展功能
日前,Midjourney推出了最新Midjourney5.2版本,并引入了社区长期以来一直要求的画面扩展功能。"Zoomout"是Midjourney给这一功能起的名字,在其他AI图像生成器中通常称为"outpainting(画面扩展)":AI可以放大已经生成的图像。例如,在肖像图中,可以补全画面,让你看到更多周围环境的细节。原图站长网2023-06-25 23:41:110001天涨粉314万,泼天流量砸中“草根网红”郭有才
一首《诺言》全网刷屏,郭有才爆红出圈。郭有才-菏泽树哥,赞7621他梳着上世纪90年代流行的大背头,戴一副银丝框眼镜,身着复古风格的宽大西装,打着一条红白条纹领带,手上戴着副黑色皮手套,在直播间里声嘶力竭地唱着这首老歌:我不了解天长地久,要用这么多的寂寞来等是你让我的心痛,一天比一天深无奈人在风里、人在雨里、人在爱的岁月里漂流你我不能重头、不能停留、不能抗拒命运左右……站长网2024-05-17 17:50:120003海淀家长疯抢的AI神器,有人用它高考前60天提分100+?星火4.0打造最强AI学习机
【新智元导读】如何才是一台能真正帮到孩子的AI学习机?最近,搭载了星火4.0大模型,并全面升级AI1v1答疑辅导实现了超拟人对话的讯飞AI学习机,堪称最省爸妈的AI神器。就在上周,2023年度国家科学技术大奖公布,科大讯飞作为第一单位荣获国家科学技术进步奖一等奖。这是深度学习引发新一代AI浪潮以来,过去十年人工智能领域获得的「首个」国奖一等奖。站长网2024-07-03 17:54:230001小米晋升两位高管:许斐、张剑慧升任集团副总裁
站长之家(ChinaZ.com)5月8日消息:今日,小米集团创始人、董事长雷军通过官方渠道宣布了两项重要人事任命,标志着小米在管理层上的新变化和新气象。许斐和张剑慧两位资深员工被正式晋升为集团副总裁,并分别兼任新的重要职务。站长网2024-05-09 15:05:520000