斯坦福研究称:ChatGPT在部分任务表现变蠢 准确率下降
站长网2023-07-20 17:17:204阅
斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,研究了 OpenAI 的 ChatGPT 大语言模型(LLM)在2023年3月至6月之间发生的变化。
他们发现,在经过三个月的评估后,ChatGPT 的性能在某些任务上明显恶化。例如,在判断质数和显示思考过程的任务中,GPT-4的准确率下降了95.2%,而 GPT-3.5的准确度大幅上升,提升了79.4%,从7.4%提高到了86.8%。另一个用限定符求一系列整数之和的问题在 GPT-4和 GPT-3.5中也出现了性能下降,分别为负42% 和20%。
与3月份相比,6月份的GPT-4更能抵抗越狱或通过特定提示规避内容保护边界,这一变化很可能被视为该公司的一项改进。
研究人员认为,提高监测和透明度可以避免 LLM 漂移的问题。这项研究揭示了企业在考虑采用生成式 AI 产品时需要注意的新领域,并称之为 “LLM 漂移”。要应对 LLM 漂移的影响,企业需要保持警惕,并进行连续的外部评估和监测。
0004
评论列表
共(0)条相关推荐
报道称美国军方投资数亿美元计划发展智能无人机及AI系统
文章概要:1.美国国防部计划扩大无人机和自主系统机队,加入人工智能技术。2.国防部副部长凯瑟琳·希克斯提出发展“小型、智能、廉价”人工智能系统,以抵御威胁。3.计划包括加强监视设备和网络,尚不清楚具体应用的人工智能技术。美国国防部计划投资数百万美元,扩大其无人机和自主系统机队,并考虑引入更多的人工智能(AI)技术,以增强其军事能力。站长网2023-09-07 14:19:240000Meta的LLaMA模型开源替代品来了,OpenLLaMAH可用于商业用途
LLaMA等大型语言模型的成功推动了开源聊天机器人的发展,但对这些模型的许可限制限制了它们的商业用途。OpenLLaMA为希望使用语言模型的企业提供了一种更易于访问且更具成本效益的选择.站长网2023-05-06 14:57:190002阅文收购腾讯动漫背后的三点思考
12月11日,阅文集团宣布将收购腾讯动漫相关资产,其中包括腾讯动漫APP平台、其作品知识产权与相关权利、以及动画和影视项目等,总对价为人民币6亿元现金。一石激起千层浪,一方是从网络文学发源一路生长成IP生态的集大成者,一方是同样以IP为核心的动漫赛道担当,两者的携手势必对创作者生态、行业市场以及产业上下游产生深远的影响。0000德勤:中国、印度等对ChatGPT等生成式AI应用,处领先地位
全球四大会计事务所之一的德勤(Deloitte)在官网发布了一份,名为《GenerativeAIinAsiaPacific:Youngemployeesleadasemployersplaycatch-up》的深度调查报告。站长网2024-05-27 19:45:540000微软悄然推出适用于 Android 的专用 Copilot 应用程序
微软公司近日悄无声息地为Android推出了一款新的独立AI聊天机器人应用,名为「Copilot」。这款应用首次被Twitter用户发现,它的发布丰富了AI驱动移动应用的领域,为消费者提供了更多样化的选择。站长网2023-12-27 09:44:420000