刚刚，OpenAI发布GPT-4.1，性能暴涨、100万上下文

站长网2025-04-15 09:11:421阅

今天凌晨1点，OpenAI进行了技术直播发布了最新模型——GPT-4.1。

除了GPT-4.1之外，还有GPT4.1-Mini和GPT4.1-Nano两款模型，在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文，这对于金融分析、小说写作、教育等领域帮助巨大。

由于GPT-4.1的发布，OpenAI宣布将会淘汰刚发布不久的GPT-4.5，其能力可见一斑。

目前，如果想体验GPT-4.1而无法通过API身份验证的小伙伴，微软已经在Azure OpenAI上线了该模型，可以使用了。

GPT-4.1简单介绍

GPT-4.1最大亮点之一就是支持100万tokens上下文，这也是OpenAI首次发布长窗口模型。

与前代模型相比，GPT-4.1、GPT-4.1Mini和GPT-4.1Nano能够处理多达100万tokens的上下文，是GPT-4o的8倍。

OpenAI在Long Context Evals上对长文本进行了测试，测试结果显示，GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本，无论是开头、中间还是结尾，甚至在长达100万tokens的上下文中，模型依然能够准确地定位目标文本。

OpenAI还在Multi-Round Coreference进行了测试，通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中，用户和助手交替进行对话，用户可能会要求模型生成一首关于某个主题的诗，接着要求生成另一首关于不同主题的诗，然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容，例如“第二篇关于某个主题的短故事”。

测试结果显示，GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o，并且在长达100万tokens的上下文中依然能够保持较高的性能。

在编码能力测试中，SWEBench评估将模型置于Python代码库环境，让其探索代码库、编写代码和测试用例。结果显示，GPT-4.1的准确率达到55%，而GPT-4o仅为33%。

在多语言编码能力测试方面，Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍，在处理多语言编程任务、代码优化和版本管理时更高效。

在指令遵循能力测试中，OpenAI构建内部评估体系，模拟API开发者使用场景，测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令，并分难度等级。在困难子集评估中，GPT-4.1远超GPT-4o。

在多模态处理测试的视频MME基准测试中，GPT4.1对30-60分钟无字幕视频进行理解并回答多项选择题，取得72%的成绩，达到当前最佳水平，在视频内容理解上实现重大突破。

价格方面，GPT -4.1系列在性能提升的同时，价格更具竞争力。GPT -4.1相比GPT-4o价格降低26%，而GPT -4.1Nano作为最小、最快且最便宜的模型，每百万token的成本仅为12美分。

实际应用GPT-4.1案例

汤森路透是全球领先的金融和法律信息提供商，其专业级AI助手CoCounsel被广泛应用于法律工作。

CoCounsel的主要任务是帮助法律专业人士处理复杂的法律文件和工作流程。在测试GPT-4.1时，路透社发现该模型在多文档审查方面表现出色，尤其是在处理涉及多个长文档的复杂法律工作流程时。

与GPT-4o相比，GPT-4.1在内部长上下文基准测试中的多文档审查准确性提高了17%。这一提升对于法律专业人士来说至关重要，因为它直接关系到CoCounsel处理复杂法律工作流程的能力。

法律文件通常包含多个长文档，这些文档之间可能存在复杂的相互关系，例如冲突条款或补充上下文。GPT-4.1在这些方面表现出了极高的可靠性，能够准确识别文档之间的细微关系，这对于法律分析和决策至关重要。

而在处理多个法律文件时，GPT-4.1能够有效地维护跨文档的上下文信息，并准确识别出文档之间的冲突条款或补充信息。这

Carlyle是一家全球领先的私募股权投资公司，其业务涉及大量的金融数据分析和文档处理。Carlyle使用GPT-4.1来从多个长文档中准确提取颗粒化的金融数据，这些文档包括PDF文件、Excel表格和其他复杂格式。

Carlyle的内部评估显示，GPT-4.1在从大型文档中检索数据方面的表现比其他可用模型高出50%。

GPT-4.1在处理非常大的文档时表现出色，尤其是在密集数据的检索方面。该模型成功克服了其他模型的关键限制，包括检索问题、中间位置丢失信息的错误以及跨文档的多跳推理。

这些能力使得GPT-4.1能够更高效地从复杂的金融文档中提取关键信息，为Carlyle的分析师提供了更准确、更全面的数据支持。

Windsurf是一家专注于提供高效开发工具的公司，其内部编码基准测试为评估AI模型在实际开发中的表现提供了一个重要的参考。在对GPT-4.1进行测试时，Windsurf发现该模型在编码任务中的表现比前代GPT-4o有了显著提升:GPT-4.1在Windsurf的内部编码基准测试中得分比GPT-4o高出60%。

Windsurf的用户反馈显示，GPT-4.1在工具调用方面比GPT-4o更高效，效率提升了30%。GPT-4.1在编码过程中重复进行不必要的编辑或过度细化的步骤的可能性比GPT-4o降低了约50%。

刚刚 OpenAI发布GPT4 1 性能暴涨100万上下文

0001

评论列表

共(0)条

相关推荐

站长资讯
MusicMagus：基于扩散模型，实现文本精准编辑音乐片段
**划重点:**1.🌐音乐生成技术挑战:从文本生成音乐已取得进展，但编辑生成的音乐以改进或修改特定元素仍是难题。2.🎙️MusicMagus介绍:采用先进的扩散模型，提供精准修改音乐属性的用户友好解决方案，保持原始作品完整性。3.📈实验证实卓越性能:通过比较实验证明MusicMagus在音乐语义完整性和结构一致性方面显著优于基线模型，推动音乐编辑技术的进步。
站长网2024-02-26 10:04:19
0000
站长资讯
量子塔罗牌了解一下？Quantic Tarot用AI提供个性化解读
要点:QuanticTarot是一款利用AI技术进行塔罗牌解读的应用程序。该应用提供个性化、隐私和人类专家支持的塔罗牌解读。QuanticTarot致力于为用户提供深刻的自我发现之旅。
站长网2023-08-24 23:45:45
0000
站长资讯
思谋科技发布全球首个工业多模态大模型 IndustryGPT V1.0
思谋科技在第六届中国国际进口博览会上发布了全球首个工业多模态大模型IndustryGPTV1.0。这个大模型通过深度的行业洞察和海量的精炼数据，能够准确回答制造业的问题、识别工业缺陷，并提供决策支持。与此同时，思谋科技还与松下、江森自控等跨国企业签署了战略合作协议，将在智能制造、数智化创新等领域深度合作，共同推动全球工业制造进入智能时代。
站长网2023-11-08 10:54:16
0003
站长资讯
今年应届生平均招聘月薪10342元：人工智能行业月薪最高
10月12日消息，猎聘大数据研究院发布《全国高校趋势与展望2023》。报告显示，2021届学生岗位平均招聘月薪9292元，2023届为10342元，三年来上涨1050元。2021届高校毕业生期望月薪7417元，2023届为8033元，三年来上涨616元。
站长网2023-10-12 14:03:36
0000
站长资讯
格力回应奥克斯诉侵权获赔5849万：不实信息已被驳回
今日凌晨，格力电器发布声明，针对近期关于“奥克斯诉格力侵权获赔”的不实信息进行澄清。格力表示，经查证，最高人民法院知识产权法庭已于2023年12月7日和8日就相关系列案件作出二审终审裁判。判决认定奥克斯所购买的专利不符合授权条件，应予以无效。同时，裁定撤销宁波中院和杭州中院的相关判决，驳回奥克斯的起诉。
站长网2023-12-27 08:26:09
0000