斯坦福研究称:ChatGPT在部分任务表现变蠢 准确率下降
站长网2023-07-20 17:17:204阅
斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,研究了 OpenAI 的 ChatGPT 大语言模型(LLM)在2023年3月至6月之间发生的变化。
他们发现,在经过三个月的评估后,ChatGPT 的性能在某些任务上明显恶化。例如,在判断质数和显示思考过程的任务中,GPT-4的准确率下降了95.2%,而 GPT-3.5的准确度大幅上升,提升了79.4%,从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降,分别为负42% 和20%。
与3月份相比,6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界,这一变化很可能被视为该公司的一项改进。
研究人员认为,提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域,并称之为 “LLM 漂移”。要应对 LLM 漂移的影响,企业需要保持警惕,并进行连续的外部评估和监测。
0004
评论列表
共(0)条相关推荐
共享出行持续走热 3000台曹操60在吉利4.0智能工厂交付大客户
5月22日,全球首个共享出行定制车品牌曹操汽车在吉利4.0智能工厂举办首场车型交付仪式,向共享出行行业大客户交付首批3000台曹操60。作为B端市场用车,曹操60自3月29日上市发布,仅1个多月时间已获得出租车公司、共享出行租赁公司的大量订单,广受行业和媒体的好评,快速获得共享出行市场认可。站长网2023-05-24 16:50:590000Nexusflow发布开源生成式AI模型NexusRaven-V2 处理软件工具方面超越 GPT-4
**划重点:**1.🔗Nexusflow发布13亿参数的开源生成AI模型NexusRaven-V2,具备功能调用能力,能理解人类指令并转化为精确的软件工具功能/API调用。2.🌐NexusRaven-V2在人工策划的通用软件工具使用基准上,比最新的OpenAIGPT-4模型实现了高达7%的更高工具使用成功率。站长网2023-12-08 17:04:240001Real AI发布欧洲首个人本主义开源大语言模型项目HOMINIS
**划重点:**1.🖥️LEONARDO超级计算机将支持RealAI建设欧洲首个人本主义大语言模型HOMINIS。2.🌍项目HOMINIS旨在构建道德、无偏见的AI系统,减少环境影响。3.🤝RealAI与UNINA和NVIDIA合作,致力于推动创新解决方案,涵盖多个领域。站长网2023-11-23 16:52:1000002022年抖音房产内容互动量超过200亿次 高活跃兴趣用户达1.2亿
今日,巨量算数发布《2023抖音房产生态白皮书》。白皮书指出,2022年,抖音房产内容的互动量超过200亿次,包括点赞、评论、转发的互动行为同比2021年都实现了稳定增长,用户对房产内容的需求持续推动着内容生态丰富完善,高活跃兴趣用户体量达到1.2亿。站长网2023-04-16 08:25:560000SDXL-Lightning:一个步骤就能生成1024分辨率高清图像
SDXL-Lightning是由字节跳动开发的一个重要项目,采用了创新的蒸馏策略,优化了扩散模型,实现了从文本到高分辨率图像的快速、高质量生成。模型地址:https://top.aibase.com/tool/sdxl-lightning项目主要特点及功能:站长网2024-02-22 14:45:140003