斯坦福研究称：ChatGPT在部分任务表现变蠢准确率下降

站长网2023-07-20 17:17:204阅

斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文，研究了 OpenAI 的 ChatGPT 大语言模型（LLM）在2023年3月至6月之间发生的变化。

他们发现，在经过三个月的评估后，ChatGPT 的性能在某些任务上明显恶化。例如，在判断质数和显示思考过程的任务中，GPT-4的准确率下降了95.2%，而 GPT-3.5的准确度大幅上升，提升了79.4%，从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降，分别为负42% 和20%。

与3月份相比，6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界，这一变化很可能被视为该公司的一项改进。

研究人员认为，提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域，并称之为 “LLM 漂移”。要应对 LLM 漂移的影响，企业需要保持警惕，并进行连续的外部评估和监测。

斯坦福研究称ChatGPT在部分任务表现变蠢准确率下降

0004

评论列表

共(0)条

相关推荐

站长资讯
天猫618苹果开启全球首次直播带货 iPhone 14系列最高直降1350元
苹果将于今晚19:00在天猫开启首次全球直播，这也是苹果官方首次在电商平台直播。据悉，618活动将于今晚20:00开启。在iPhone方面，包括iPhone14、iPhone14Pro、iPhone14ProMax和iPhone13等，都将提供不同幅度的优惠，最高可领取1350元优惠券。iPhone14Pro券后起售价直接降至6499元。
站长网2023-05-31 08:15:52
0000
站长资讯
数据显示：10月全球智能手机市场在连选27个月下跌后迎来增长
在全球智能手机市场经历了两年多的低迷后，据CounterpointResearch的数据显示，由于新兴市场的复苏，该市场在10月份迎来了5%的月销量增长，成为自2021年6月以来首个同比增长的月份，打破了27个月的连续同比负增长记录。图源备注:图片由AI生成，图片授权服务商Midjourney
站长网2023-11-22 14:26:08
0000
站长资讯
AI误判!美国教授用ChatGPT「证实」论文抄袭一半学生挂科
一位得克萨斯农工大学的教授，因为对ChatGPT的原理一窍不通，误以为它可以识别由AI生成的内容，结果导致班上一多半人的论文被ChatGPT误判为抄袭，学校拒发了他们的毕业证。一些学生提供了带有时间戳的GoogleDocs来证明自己没有使用ChatGPT，但教授无视了这些证据。目前，事件正在调查中，个别学生的文凭将被扣留，直到调查完成。
站长网2023-05-18 15:23:38
0000
闲鱼「搞钱」，可能比年轻人更急迫？
每个时代有每个时代的财富密码。当宏观放缓，“会省钱”和“会花钱”的人都开始追求质价比、性价比，以闲鱼为代表的循环经济和二手生意迎来了它前所未有的发展良机。不再藏着掖着。2023年11月，阿里CEO吴泳铭在财报分析师电话会上，公布了集团第一批战略级创新业务——1688、闲鱼、钉钉、夸克。对应的遴选标准是市场潜力大、定位独特、符合用户需求和AI驱动。
站长网站长资讯2024-12-31 14:07:14
0000
国产模型炸裂登场，国外赞不绝口！OpenAI-o1级性能，免费使用
昨晚，国产大模型平台DeepSeek发布了，全新推理模型DeepSeek-R1-Lite预览版。这个模型的最大特色便是深度思维链推理，尤其是在数学、代码以及各种复杂推理任务上，可以生成数万字的推理流程，让用户深度了解模型生成内容的全过程。例如，连GPT-4o等模型都搞错的9.11比9.9更大的“难题”，R1通过超长思维链推理可以轻松搞定。
站长网站长资讯2024-11-22 20:10:04
0000