最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降
【新智元导读】月初刚测了GPT-4Turbo上下文真实实力的大神Greg Kamradt又盯上了Anthropic刚更新的Claude2.1。他自己花了1016刀测完之后显示,Claude2.1在上下文长度达到90K后,性能就会出现明显下降。
OpenAI正忙着政变的时候,他们在硅谷最大的竞争对手Anthropic,则悄悄地搞了个大新闻——发布了支持200K上下文的Claude2.1。
看得出来,Claude2.1最大的升级就是将本就很强大的100K上下文能力,又提升了一倍!
200K的上下文不仅可以让用户更方便的处理更多的文档,而且模型出现幻觉的概率也缩小了2倍。同时,还支持系统提示词,以及小工具的使用等等。
而对于大多数普通用户来说,Claude最大的价值就是比GPT-4还强的上下文能力——可以很方便地把一些超过GPT-4上下文长度的长文档丢给Claude处理。
这样使得Claude不再是ChatGPT的下位选择,而成为了能力上和ChatGPT有所互补的另一个强大工具。
所以,Claude2.1一发布,就网友上手实测,看看官方宣称的「200K」上下文能力到底有多强。
Claude2.1200K上下文大考:头尾最清楚,中间几乎记不住
本月初,当OpenAI发布了GPT-4turbo的时候,技术大佬Greg Kamradt就对OpenAI的新模型进行了各方面的测试。
他把YC创始人Paul Graham文章的各个部位都添加了标记性的语句后喂给模型,然后来测试它读取这些语句的能力。
用几乎同样的方法,他对Claude2.1也进行了上下文能力的压力测试。
2天时间全网阅读量超过110万
测试结果显示:
在官方标称的极限长度200K下,Claude2.1确实有能力提取出标记性的语句。
位于文档开头的标记性内容,几乎都能被完整的获取到。
但和GPT-4Turbo的情况类似,模型对文档开头内容的获取效果不如对文档底部内容的获取内容。
从90K长度开始,模型对文档底部标记性内容的获取能力就开始下降了。
从图中我们能看到,与GPT-4128K测试结果相比,Claude2.1200K上下文长度,仅仅只是「在200K长度的文章中能读取到信息」。
而GPT-4128K的情况是「在128K长度后出现明显下降」。
如果按照GPT-4128K的质量标准,可能Claude2.1大概只能宣称90K的上下文长度。
按照测试大神Greg说法,的这些测试结果表明:
用户在需要专门设计提示词,或者进行多次测试来衡量上下文检索的准确性。
应用开发者不能直接假设在这些上下文范围内的信息都能被检索到。
更少上下文长度的内容一般来说就代表着更高的检索能力,如果对检索质量要求比较高,就尽量减少喂给模型的上下文长度。
关键信息的位置很重要,开头结尾的信息更容易被记住。
而他也进一步解释了自己做这个对比测试的原因:
他不是为了黑Anthropic,他们的产品真的很棒,正在为所有人构建强大的AI工具。
他作为LLM从业人员,需要对模型的工作原理,优势和局限性有更多的了解和理解。
这些测试肯定也有不周到的地方,但可以帮中使用模型的用户更好的构建基于模型的服务,或者更加有效地使用模型能力。
而在做测试的过程中他还发现了一些细节:
模型能够回忆出的标记事实量很重要,模型在执行多个事实检索任务或综合推理步骤时会降低回忆事实的体量。
更改提示词,问题,以及要回忆的事实和背景上下文都会影响回忆的质量。
Anthropic团队在测试过程中也提供了很多帮助和建议,但这次测试调用API还是花了作者本人1016美元(每100万token的成本为8美元)。
自掏200刀,首测GPT-4128K
在这个月初,OpenAI在开发者大会上发布GPT-4Turbo时,也宣称扩大了上下文能力到128K。
当时,Greg Kamradt直接自掏200刀测了一波(单次输入128K token的成本为1.28美元)。
从趋势来看,和这次Anthropic的结果差不多:
当上下文超过73K token时,GPT-4的记忆性能开始下降。
如果需要回忆的事实位于文档的7%到50%深度之间,回忆效果通常较差。
如果事实位于文档开头,无论上下文长度如何,通常都能被成功回忆出来。
而整个测试的详细步骤包括:
利用Paul Graham的文章作为「背景」token。用了他的218篇文章,轻松达到200K token(重复使用了一些文章)。
在文档的不同深度插入一个随机陈述,称述的事实是:「在旧金山最棒的活动是在阳光灿烂的日子里,在多洛雷斯公园享用三明治。」
让GPT-4仅依靠提供的上下文来回答这个问题。
使用另一个模型(同样是 GPT-4)和@LangChainAI 的评估方法来评价GPT-4的回答。
针对15种不同的文档深度(从文档顶部的0%到底部的100%)和15种不同的上下文长度(从1K token到128K token),重复上述步骤。
参考资料:
https://twitter.com/GregKamradt/status/1727018183608193393
https://twitter.com/GregKamradt/status/1722386725635580292
https://the-decoder.com/anthropics-best-claude-2-1-feature-suffers-the-same-fate-as-gpt-4-turbo/
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。AI视频赛道上,谷歌又再次放出王炸级更新!这个名为GoogleLumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。站长网2024-01-25 15:38:300000大模型进入「实用」时代,亚马逊云科技已是Next Level
在云计算领域竞争最激烈的时代,亚马逊云科技曾提出,云计算的普惠是技术升级带来的。这个说法换到如今的生成式AI时代也是成立的。如果细数这半年来「震撼发布」、「颠覆时代」出现的频率,其实并不比往年低。每一次迭代都在抬高大模型解决问题能力的上限,也都拓宽了人们关于如何利用大模型解决现实场景问题的视野。前段时间,Claude3高调面世,一度打破GPT-4保持了许久的全球最强大模型纪录。站长网2024-05-31 07:14:370000由苹果前员工创立的神秘硬件初创公司 Humane 公布首款产品「Ai Pin」
Humane是由前苹果设计和工程师ImranChaudhri和BethanyBongiorno建立的初创公司,日前公布了其第一款产品「HumaneAiPin」的详细信息。图片来自Humane站长网2023-07-03 18:15:030003SNE Research:2035 年全球电动汽车渗透率有望达到 90% 左右
据韩国市场调研机构SNEResearch最新数据,2015年至2017年的电动汽车普及率(电动汽车占汽车总销量的比例)仅为1%左右,而去年则达到了13%。站长网2023-04-12 16:45:570000通义千问跳科目三,关AI电商啥事?
海底捞的小哥们,为了科目三,崴了多少脚。但是千算万算,没有算到在通义千问悄悄上线的“全民舞王”的助攻下,只需要一张照片,人人都可以科目三。以现在大模型的“姿势水平”,文字生成文字,文字生成图片对它而言已经变成了“小儿科”,不管大家在排行榜上竞争得如何激烈,真正的竞争,其实已经到了跨模态生成领域——“全民舞王”的图片生成视频是这样,让马斯克和扎克伯格等知名外国人在视频里说中文也是这样。0000