OpenAI开启调查:GPT-4o及4o-mini模型性能下降
站长网2025-01-20 16:29:230阅
快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。
近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。
0000
评论列表
共(0)条相关推荐
“日日新大模型”亮相奥运会,商汤科技AI应用成色几何?
AI技术对于商业模式未通的商汤科技而言,此番奔赴奥运赛场,或许只是追追热点、提升品牌知名度,而其应用场景落地与商业化进程,恐怕不会带来实质性的改变。AI黑科技加持的2024年巴黎奥运会,浪漫而时髦。各大模型厂商,也在趁着热点,在赛场内外秀肌肉、疯狂内卷。0000标准版无缘!苹果iPhone 15 Pro系列独占Wi-Fi 6E
快科技5月1日消息,据MacRumors报道,苹果对iPhone15标准版和Pro版实行差异化策略,Pro系列不仅仅会独占A17仿生芯片,网络方面也跟标准版有所不同。站长网2023-05-12 20:41:120000Lalamu Studio:用AI轻松创作对口型视频
LalamuStudio是一款基于人工智能技术的创新软件,能够通过使用AI轻松地创作口型同步视频。使用者可以通过上传视频文件或使用内置模板来开始创作,利用先进的人工智能算法,系统会自动对嘴部动作进行调整,以确保与音频的完美匹配。体验地址:https://www.lalamu.app/站长网2023-08-08 17:12:140001五年烧烤无人知,他靠一首《诺言》3天涨粉314万
郭有才,一位来自山东菏泽的草根网红,因翻唱一首《诺言》在短短3天内粉丝数暴增314万,迅速走红网络。他以其独特的复古造型和深情的演绎风格,成功吸引了大量观众的注意。在直播间里,郭有才以90年代的大背头、银丝框眼镜、宽大西装和红白条纹领带的形象出现,身后是已经停运多年的菏泽南站,营造出浓厚的怀旧氛围。站长网2024-05-17 18:05:100001印度首家IT公司推出“印度版ChatGPT” 支持40种印度方言
文章概要:1.TechMahindra推出面向印度语言的开源语言模型ProjectIndus,这可能是该公司迄今最重要的项目。2.该模型最初将支持40种印地语言方言,参数规模预计达到70亿。模型有望为印度25%的人口提供服务。3.为不同语言和方言收集数据仍然是最大的挑战。TechMahindra正在通过语言捐献渠道收集数据集,并与各利益相关方合作。站长网2023-09-05 14:22:430000