一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用
各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。
然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。
AI真的能从几十万字中准确找到关键事实吗?颜色越红代表AI犯的错越多。
默认情况下,GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。
但Claude团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从27%提升到98%。
只不过这句话不是加在用户提问上的,而是让AI在回复的开头先说:
“Here is the most relevant sentence in the context:”
(这就是上下文中最相关的句子:)
让大模型大海捞针
为了做这项测试,作者Greg Kamradt自掏腰包花费了至少150美元。
好在测试Claude2.1时,Anthropic伸出援手给他提供了免费额度,不然还得多花1016美元。
其实测试方法也不复杂,都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。
在文档中的不同位置添加特定语句:在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。
请GPT-4和Claude2.1仅仅使用所提供的上下文来回答问题,在不同上下文长度和添加在不同位置的文档中反复测试。
最后使用Langchain Evals库来评估结果。
作者把这套测试命名为“干草堆里找针/大海捞针”,并把代码开源在GitHub上,已获得200 星,并透露已经有公司赞助了对下一个大模型的测试。
AI公司自己找到解决办法
几周后,Claude背后公司Anthropic仔细分析后却发现,AI只是不愿意回答基于文档中单个句子的问题,特别是这个句子是后来插入的,和整篇文章关系不大的时候。
也就是说,AI判断这句话和文章主题无关,就偷懒不去一句一句找了。
这时就需要用点手段晃过AI,要求Claude在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。
使用这个办法,在寻找不是后来人为添加、本来就在原文章中的句子时,也能提高Claude的表现。
Anthropic公司表示将来会不断的继续训练Claude,让它能更适应此类任务。
在API调用时要求AI以指定开头回答,还有别的妙用。
创业者Matt Shumer看过这个方案后补充了几个小技巧:
如果想让AI输出纯JSON格式,提示词的最后以“{”结尾。同理,如果想让AI列出罗马数字,提示词以“I:”结尾就行。
不过事情还没完……
国内大模型公司也注意到了这项测试,开始尝试自家大模型能不能通过。
同样拥有超长上下文的月之暗面Kimi大模型团队也测出了问题,但给出了不同的解决方案,也取得了很好的成绩。
这样一来,修改用户提问Prompt,又比要求AI在自己的回答添加一句更容易做到,特别是在不是调用API,而是直接使用聊天机器人产品的情况下。
月之暗面还用自己的新方法帮GPT-4和Claude2.1测试了一下,结果GPT-4改善明显,Claude2.1只是稍微改善。
看来这个实验本身有一定局限性,Claude也是有自己的特殊性,可能与他们自己的对齐方式Constituional AI有关,需要用Anthropic自己提供的办法更好。
后来,月之暗面的工程师还搞了更多轮实验,其中一个居然是……
坏了,我成测试数据了。
参考链接:
[1]https://x.com/GregKamradt/status/1727018183608193393
[2]https://www.anthropic.com/index/claude-2-1-prompting
—完—
AI变革MRI扫描!Orbem融资3200万美元 用来判断鸡蛋性别
文章概要:-德法意去年立法禁止扼杀公鸡雏鸡,鼓励技术公司研发判断雏鸡性别的方法-慕尼黑创业公司Orbem利用MRIAI技术,可在1秒内扫描判断鸡蛋性别-Orbem已扫描2000万只鸡蛋获利,也计划应用到人体MRI等领域站长网2023-10-11 18:08:470001余承东终端业务职位变动:仍是的一把手!
快科技5月1日消息,根据最新公布的业绩报告,华为2024年一季度收入约1784.5亿元,同比增长36.66%,归母净利润约196.5亿元,同比增长约564%,净利润率11%。与此同时,有媒体报道称,余承东将卸任华为终端BGCEO一职,同时继续担任终端BG董事长,而原华为终端BG首席运营官何刚接替余承东担任终端BGCEO。0000FreeU:无需额外训练或微调即可提高图像生成质量
要点:1.自由扩展技术(FreeU)是一种新的人工智能技术,用于提高生成模型的质量,无需额外的训练或微调。2.该技术利用概率扩散模型,通过调整主干和跳跃连接之间的贡献来平衡低频和高频特征,从而改善生成图像的质量。3.自由扩展技术已经在文本到图像生成和文本到视频生成等应用中展示出显著的生成输出质量提升。站长网2023-10-27 15:09:000002OpenAI 支持的人形机器人 EVE 击败马斯克的特斯拉 已在安保领域实际部署
1X公司的首席执行官BerntBornich表示,他们制造的人形机器人EVE已经在美国和欧洲部分地区运营。这是一个能够执行护理和调酒任务、并使用类似人的手臂的机器人。这款具有突破性的机器人是人类历史上第一个成功融入专业环境的真正人形机器人,超越了埃隆·马斯克推出的备受期待的特斯拉机器人。站长网2023-05-22 16:43:230000联合国大会通过首个AI相关决议草案:旨在消除数字鸿沟
快科技3月22日消息,据媒体报道,联合国大会投票通过了第一个有关人工智能(AI)的决议草案,以确保这项新技术能够惠及所有国家、尊重人权并且是安全、可靠和值得信赖的”技术。据了解,这项决议草案旨在消除发达国家和发展中国家之间的数字鸿沟,确保它们在人工智能讨论中处于同等地位,还旨在确保发展中国家拥有利用人工智能的技术和能力。0000