斯坦福研究称:ChatGPT在部分任务表现变蠢 准确率下降
站长网2023-07-20 17:17:204阅
斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,研究了 OpenAI 的 ChatGPT 大语言模型(LLM)在2023年3月至6月之间发生的变化。
他们发现,在经过三个月的评估后,ChatGPT 的性能在某些任务上明显恶化。例如,在判断质数和显示思考过程的任务中,GPT-4的准确率下降了95.2%,而 GPT-3.5的准确度大幅上升,提升了79.4%,从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降,分别为负42% 和20%。

与3月份相比,6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界,这一变化很可能被视为该公司的一项改进。
研究人员认为,提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域,并称之为 “LLM 漂移”。要应对 LLM 漂移的影响,企业需要保持警惕,并进行连续的外部评估和监测。
0004
评论列表
共(0)条相关推荐
天猫618苹果开启全球首次直播带货 iPhone 14系列最高直降1350元
苹果将于今晚19:00在天猫开启首次全球直播,这也是苹果官方首次在电商平台直播。据悉,618活动将于今晚20:00开启。在iPhone方面,包括iPhone14、iPhone14Pro、iPhone14ProMax和iPhone13等,都将提供不同幅度的优惠,最高可领取1350元优惠券。iPhone14Pro券后起售价直接降至6499元。站长网2023-05-31 08:15:520000数据显示:10月全球智能手机市场在连选27个月下跌后迎来增长
在全球智能手机市场经历了两年多的低迷后,据CounterpointResearch的数据显示,由于新兴市场的复苏,该市场在10月份迎来了5%的月销量增长,成为自2021年6月以来首个同比增长的月份,打破了27个月的连续同比负增长记录。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-11-22 14:26:080000AI误判!美国教授用ChatGPT「证实」论文抄袭 一半学生挂科
一位得克萨斯农工大学的教授,因为对ChatGPT的原理一窍不通,误以为它可以识别由AI生成的内容,结果导致班上一多半人的论文被ChatGPT误判为抄袭,学校拒发了他们的毕业证。一些学生提供了带有时间戳的GoogleDocs来证明自己没有使用ChatGPT,但教授无视了这些证据。目前,事件正在调查中,个别学生的文凭将被扣留,直到调查完成。站长网2023-05-18 15:23:380000闲鱼「搞钱」,可能比年轻人更急迫?
每个时代有每个时代的财富密码。当宏观放缓,“会省钱”和“会花钱”的人都开始追求质价比、性价比,以闲鱼为代表的循环经济和二手生意迎来了它前所未有的发展良机。不再藏着掖着。2023年11月,阿里CEO吴泳铭在财报分析师电话会上,公布了集团第一批战略级创新业务——1688、闲鱼、钉钉、夸克。对应的遴选标准是市场潜力大、定位独特、符合用户需求和AI驱动。0000国产模型炸裂登场,国外赞不绝口!OpenAI-o1级性能,免费使用
昨晚,国产大模型平台DeepSeek发布了,全新推理模型DeepSeek-R1-Lite预览版。这个模型的最大特色便是深度思维链推理,尤其是在数学、代码以及各种复杂推理任务上,可以生成数万字的推理流程,让用户深度了解模型生成内容的全过程。例如,连GPT-4o等模型都搞错的9.11比9.9更大的“难题”,R1通过超长思维链推理可以轻松搞定。0000