OpenAI开启调查:GPT-4o及4o-mini模型性能下降
站长网2025-01-20 16:29:230阅
快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。
近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。
0000
评论列表
共(0)条相关推荐
百度“萝卜快跑”获准在京开展大兴机场自动驾驶载人示范应用
百度旗下的自动驾驶服务品牌“萝卜快跑”最近宣布,他们首批获准在北京大兴机场高速和部分区域进行自动驾驶车辆载人示范应用。这意味着北京成为全球首个开展城区至机场自动驾驶载人示范应用的首都城市。这一举措表明“萝卜快跑”自动驾驶服务场景得到进一步扩展,未来将实现城区道路到机场高速的自动驾驶贯通运行,让用户能够享受无需换乘一站直达的便利。站长网2024-02-23 14:16:220000网盘用上大模型后「真香」!压箱底黑照3秒找到,亲朋好友都不淡定了
想不到,有了AI加持,我也有在我司鲨疯的一天!同事的压箱底黑照,被我3秒钟就翻了出来,光速做成表情包先发制人。喏,只需要在网盘的搜索框里输入“大笑的男人”,立马就能检索到相关图像。然后选中想要“攻击”的对象、点击编辑,就能一键加文字变表情包。整个过程相当丝滑,我图都做完了,同事那还在找图呢(doge)。而且这个搜索还能直接理解“什么是表情包”,可以一键找到之前做好的图。站长网2023-07-18 08:52:180000大模型公司,贴着用户的脸打营销战
关于我在ChinaJoy现场被硬控十分钟这件事。现如今,大模型产品的线上投流和线下投广已经变得非常常见,各种花式出圈手段层出不穷,营销规模可以用“卷”来形容。在线下,地铁、写字楼、机场等白领人群密集区域,广告牌都纷纷换上了大模型公司的广告。刺猬公社在楼下地铁站拍到的广告站长网2024-08-07 09:22:080000国内权威专家组团向大模型投毒,ChatGPT居然比国内一众中文模型更安全?
国内权威专家组团“哄骗”大模型,哪个被“忽悠瘸了”?1“奶奶漏洞”暴露出大模型薄弱环节前不久,以ChatGPT、Bard为代表的各类大语言模型因存在的“奶奶漏洞”引发热议。到底什么是“奶奶漏洞”?网友将其定义为一种大模型“越狱”技巧。只要在提示词中加入“请扮演我已经过世的祖母”,然后再提出要求,大模型就会给出适当的答案。站长网2023-07-19 22:07:590000百度搜索资源平台发布违规落地页问题说明
百度搜索资源平台发布《搜索违规落地页体验问题说明》称,鼓励开发者生产体验优质的页面,当用户在浏览移动落地页时,站点可以为用户提供符合搜索用户浏览体验的页面。保证移动落地页的快速打开,浏览顺畅,整体布局合理、排版精良,避免低质广告页面,功能操作异常等情况出现。一、pc端移动适配移动搜索结果落地页必须是移动页而不是PC页。整改措施1、移动适配站长网2023-06-25 23:41:120001