斯坦福研究称:ChatGPT在部分任务表现变蠢 准确率下降
站长网2023-07-20 17:17:204阅
斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,研究了 OpenAI 的 ChatGPT 大语言模型(LLM)在2023年3月至6月之间发生的变化。
他们发现,在经过三个月的评估后,ChatGPT 的性能在某些任务上明显恶化。例如,在判断质数和显示思考过程的任务中,GPT-4的准确率下降了95.2%,而 GPT-3.5的准确度大幅上升,提升了79.4%,从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降,分别为负42% 和20%。
与3月份相比,6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界,这一变化很可能被视为该公司的一项改进。
研究人员认为,提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域,并称之为 “LLM 漂移”。要应对 LLM 漂移的影响,企业需要保持警惕,并进行连续的外部评估和监测。
0004
评论列表
共(0)条相关推荐
英伟达发布RAPIDS cuDF框架 pandas在GPU上运行速度快了150倍
要点:Nvidia发布的RAPIDScuDF框架的新版本可以将pandas运行在GPU上,据称性能提升了150倍。RAPIDScuDF框架是基于ApacheArrow构建的PythonGPUdataframe库,通过新版本的pandas加速模式,可以在GPU加速环境下运行不经修改的pandas代码,实现了最高150倍的性能提升。站长网2023-11-09 10:32:150000“越狱”后,AI成了她的完美恋人
5月1日凌晨,OpenAI举行春季发布会,推出了最新多模态大模型GPT-4o。用户可以以文本、音频、图像任意组合输入,从而得到ChatGPT的实时输出,网友将之称为最像“人”的AI。就在不久前,互联网上曾出现大量与ChatGPT的“DAN”调情的短视频内容,越来越多人磕上了“人机之恋”。站长网2024-05-16 11:04:160002网易有道发布「子曰」类 ChatGPT 大模型 AI 口语老师剧透视频
网易有道官方视频号发布了基于「子曰」大模型开发的AI口语老师剧透视频。据介绍「子曰」为有道自研的教育场景下的类ChatGPT模型。根据视频内容,网易有道AI口语老师能提供多种练习场景,同时会根据用户需求扮演多种角色,进而引导用户进行多轮对话、解决长期困扰「开口难」的问题。站长网2023-05-06 09:33:070004问界新M7 Max焕新版即日开订!余承东:29.8万起 5月31日发布
快科技5月17日消息,今日,华为余承东发文称,问界新M7新版本的预订通道已开启,预售价29.8万起,将于5月31日发布。同时,昨天发起的投票结果显示,大家对问界新M7新版外观内饰”的升级呼声最高。提前预告一下,问界新M7Max焕新版带来重磅升级的内外饰设计,而且还新增了星际蓝配色;拥有更强大的智驾能力、更舒适的驾乘体验,以及更丰富的舒享配置。站长网2024-05-17 10:49:460000摩尔线程开源音频理解大模型MooER:38小时训练5000小时数据
快科技8月23日消息,摩尔线程官方宣布,音频理解大模型MooER”(摩耳)已经正式开源,并公布在GitHub上:https://github.com/MooreThreads/MooER目前开源的内容包括推理代码,以及5000小时数据训练的模型,后续还将开源训练代码,以及基于8万小时数据训练的模型。摩尔线程希望,能够在语音大模型的方法演进和技术落地方面为社区做出贡献。站长网2024-08-26 11:31:480000