OpenAI开启调查：GPT-4o及4o-mini模型性能下降

站长网2025-01-20 16:29:230阅

快科技1月20日消息，据报道，OpenAI发布事故报告指出，当前遭遇GPT-4o和4o-mini模型性能下降问题，目前正在进行调查，并将尽快发布最新消息。

近期，科研人员创新性地推出了一项名为LONGPROC的基准测试工具，该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外:包括GPT-4o在内的众多顶尖模型，虽然在常规长上下文回忆基准测试中表现优异，但在应对复杂的长文本生成任务时，仍暴露出显著的改进需求。

具体而言，尽管所有参测模型均宣称其上下文窗口大小超过32K tokens，但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态，而诸如GPT-4o等闭源模型，在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例，在要求其生成详细旅行规划的任务中，即便提供了明确的时间节点和直飞航班信息，模型的输出结果中仍出现了不存在的航班信息，即产生了幻觉”现象。

实验进一步揭示，即便是最前沿的模型，在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中，即便是参数庞大的先进模型也未能幸免于难，这或许预示着未来大型语言模型（LLM）研究的一个极具潜力的方向。

OpenAI开启调查GPT4o及4omini模型性能下降

0000

评论列表

共(0)条

相关推荐

站长资讯
小米平板7曝光：全系适配小米SU7 即插即用
快科技5月3日消息，据智慧皮卡丘”爆料，小米平板7系列将会在第三季度发布。这一代亮点之一就是全系适配小米SU7，支持即插即用，可以在挂载后排当做控制、娱乐屏。连接后可通过澎湃OS接入原生车机系统，后排乘客能自主调节副驾座椅与空调，选择导航目的地与路线方案，或充当影音娱乐屏，支持超30项控车功能。
站长网2024-05-03 22:33:57
0000
站长资讯
AI在线字幕生成工具字幕酱可自动生成、翻译字幕
字幕酱是一个在线字幕生成工具，利用AI深度学习技术，提供自动字幕生成、字幕翻译、字幕格式转换等功能。基于AI人工智能，字幕酱可以在线自动生成、自动翻译、格式转换和制作双语字幕。支持多种语言，如中文、英文、粤语、日语、韩语、德语、法语、西班牙语等，并提供在线语音转字幕工具。体验地址:https://www.zimujiang.com/特色功能:60秒内短视频免费，性价比极高;
站长网2023-08-21 14:36:29
0002
站长资讯
pgvecto.rs：提供矢量相似性搜索的Postgres扩展
pgvecto.rs是一个Postgres扩展，提供矢量相似性搜索功能。它易于使用，并可以集成到现有的工作流程和应用程序中。pgvecto.rs是用Rust编写的，因此与类似产品相比，它具有更好的内存安全性、更好的性能和降低的维护成本。pgvecto.rs的目标是提供易于使用、高性能、安全的向量数据库解决方案。核心功能:
站长网2023-08-19 15:30:54
0003
站长资讯
宁德时代发布凝聚态电池能量密度达500Wh/kg
今天，宁德时代正式发布了全新的凝聚态电池，单体能量密度高达500Wh/kg，达航空级电池级别。宁德时代首席科学家吴凯表示，宁德时代正在进行民用电动载人飞机项目的合作开发，执行航空级的标准与测试，满足航空级的安全与质量要求。除了能量密度高、安全性好之外，凝聚态电池还具备快速充电可靠性强、循环寿命长等特点，可以在数分钟内完成充电。据悉，凝聚态电池将在今年内具备量产能力。
站长网2023-04-19 11:12:37
0000
站长资讯
马斯克：人工智能新公司 xAI 将提升特斯拉的价值开发自动驾驶比大语言模型更难
特斯拉发布2023财年第二季度财报，二季度营收249.27亿美元，同比增长47%；GAAP净利润27.03亿美元，同比增长20%；nonGAAP净利润31.48亿美元，同比增长20%。特斯拉公司首席执行官埃隆·马斯克表示，他的新企业是一家专注于人工智能的初创公司，不会与电动汽车制造商竞争，甚至可能「提高特斯拉的价值」。
站长网2023-07-20 12:59:30
0000