GPT-4变笨加剧,被曝缓存历史回复:一个笑话讲八百遍,让换新的也不听
有网友找到了GPT-4变“笨”的又一证据。
他质疑:
OpenAI会缓存历史回复,让GPT-4直接复述以前生成过的答案。
最明显的例子就是讲笑话。
证据显示,即使他将模型的temperature值调高,GPT-4仍重复同一个“科学家与原子”的回答。
就是那个“为什么科学家不信任原子?因为万物都是由它们编造/构造(make up)出来的”的冷笑话。
在此,按理说temperature值越大,模型越容易生成一些意想不到的词,不该重复同一个笑话了。
不止如此,即使咱们不动参数,换一个措辞,强调让它讲一个新的、不同的笑话,也无济于事。
发现者表示:
这说明GPT-4不仅使用缓存,还是聚类查询而非精准匹配某个提问。
这样的好处不言而喻,回复速度可以更快。
不过既然高价买了会员,享受的只是这样的缓存检索服务,谁心里也不爽。
还有人看完后的心情是:
如果真这样的话,我们一直用GPT-4来评价其他大模型的回答是不是不太公平?
当然,也有人不认为这是外部缓存的结果,可能模型本身答案的重复性就有这么高:
此前已有研究表明ChatGPT在讲笑话时,90%的情况下都会重复同样的25个。
具体怎么说?
证据实锤GPT-4用缓存回复
不仅是忽略temperature值,这位网友还发现:
更改模型的top_p值也没用,GPT-4就跟那一个笑话干上了。
(top_p:用来控制模型返回结果的真实性,想要更准确和基于事实的答案就把值调低,想要多样化的答案就调高)
唯一的破解办法是把随机性参数n拉高,这样我们就可以获得“非缓存”的答案,得到一个新笑话。
不过,它的“代价”是回复速度变慢,毕竟生成新内容会带来一定延迟。
值得一提的是,还有人似乎在本地模型上也发现了类似现象。
有人表示:截图中的“prefix-match hit”(前缀匹配命中)似乎可以证明确实是用的缓存。
那么问题就来了,大模型到底是如何缓存我们的聊天信息的呢?
好问题,从开头展现的第二个例子来看,显然是进行了某种“聚类”操作,但具体如何应用于深度多轮对话咱不知道。
姑且不论这个问题,倒是有人看到这里,想起来ChatGPT那句“您的数据存在我们这儿,但一旦聊天结束对话内容就会被删除”的声明,恍然大悟。
这不禁让一些人开始担忧数据安全问题:
这是否意味着我们发起的聊天内容仍然保存在他们的数据库中?
当然,有人分析这个担忧可能过虑了:
也许只是我们的查询embedding和回答缓存被存下来了。
因此,就像发现者本人说的:
缓存这个操作本身我不太担心。
我担心的是OpenAI这样简单粗暴地汇总我们的问题进行回答,毫不关心temperature等设置,直接聚合明显有不同含义的提示,这样影响很不好,可能“废掉”许多(基于GPT-4的)应用。
当然,并不是所有人都同意以上发现能够证明OpenAI真的就是在用缓存回复。
他们的理由是作者采用的案例恰好是讲笑话。
毕竟就在今年6月,两个德国学者测试发现,让ChatGPT随便讲个笑话,1008次结果中有90%的情况下都是同样25个笑话的变体。
像“科学家和原子”这个更是尤其出现频率最高,它讲了119次。
因此也就能理解为什么看起来好像是缓存了之前的回答一样。
因此,有网友也提议用其他类型的问题测一测再看。
不过作者坚持认为,不一定非得换问题,光通过测量延迟时间就能很容易地分辨出是不是缓存了。
最后,我们不妨再从“另一个角度”看这个问题:
GPT-4一直讲一个笑话怎么了?
一直以来,咱们不都是强调要让大模型输出一致、可靠的回答吗?这不,它多听话啊(手动狗头)。
所以,GPT-4究竟有没有缓存,你有观察到类似现象吗?
ChatTTS:一个专为对话场景设计的语音生成模型
ChatTTS是一个为对话场景设计的语音生成模型,专门用于大型语言模型(LLM)助手的对话任务、对话语音和视频介绍等应用。这个模型支持中文和英文,并且在视频中展示的是中等参数的版本,使用了约10万小时的中英文数据进行训练。项目团队在视频中明确表示,虽然他们感谢关注,但可能不会开源视频中展示的版本,因为该版本使用了大量互联网数据,并进行了特定的训练方式,可能涉及法律风险。站长网2024-05-28 19:35:4400081还能这样?盘点Adobe压箱底的AI工具,零门槛出大片、自动翻译视频语言…
有“设计圈年会”之称的AdobeMax年度创意大会,最近大家看了吗?除了照惯例对全家桶进行全线升级外,Adobe还一口气推出了三个生成式AI模型,分别是主打文生图的FireflyImage2、矢量图模型FireflyVectorModel以及设计模版生成模型FireflyDesignModel。站长网2023-10-20 17:57:560000纵观这两年的千元机手机市场,发现一个现象
纵观这两年的千元机市场,相信机友们应该也发现了一个现象。那就是——选择更多样了。现在各家厂商不仅会做偏向性能向的机器,同时主打质感颜值的千元机,也在不断变多。包括之前也有不少机友在问机哥,这些主打质感颜值的机子,用起来的体验到底怎么样vivo也发布了一台主打千元曲屏的vivoY78。机哥体验过后,发现,这机子用起来还真有点说法。vivoY78老规矩,先看外观。站长网2023-05-24 04:12:290000爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
就说Sora有多火吧。生成的视频上线一个、疯传一个。作者小哥新上传的效果,很快引来围观。失败案例都让人看得上瘾。将近1万人点赞。学术圈更炸开锅了,各路大佬纷纷开麦。纽约大学助理教授谢赛宁(ResNeXt的一作)直言,Sora将改写整个视频生成领域。英伟达高级研究科学家JimFan高呼,这就是视频生成的GPT-3时刻啊!站长网2024-02-18 09:16:470000有你吗 迅雷会员突破500万 每人平均营收39.9元
快科技11月14日消息,迅雷今天发布了2023年第三季度财报。迅雷第三季度财报总营收为8420万美元(约合人民币6.14亿元),毛利润3750万美元(约合人民币2.73亿元),同比上升6.6%。毛利润的增加是由于毛利率较高的会员收入比例的增加,以及缩减的毛利率较低的国内语音直播收入比例的下降。财报显示,迅雷第三季度会员服务营收为2870万美元(约合人民币2.09亿元),同比上升15.2%。站长网2023-11-14 22:32:040001