刚刚,OpenAI发布GPT-4.1,性能暴涨、100万上下文
今天凌晨1点,OpenAI进行了技术直播发布了最新模型——GPT-4.1。
除了GPT-4.1之外,还有GPT4.1-Mini和GPT4.1-Nano两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文,这对于金融分析、小说写作、教育等领域帮助巨大。
由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5,其能力可见一斑。
目前,如果想体验GPT-4.1而无法通过API身份验证的小伙伴,微软已经在Azure OpenAI上线了该模型,可以使用了。
GPT-4.1简单介绍
GPT-4.1最大亮点之一就是支持100万tokens上下文,这也是OpenAI首次发布长窗口模型。
与前代模型相比,GPT-4.1、GPT-4.1Mini和GPT-4.1Nano能够处理多达100万tokens的上下文,是GPT-4o的8倍。
OpenAI在Long Context Evals上对长文本进行了测试,测试结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达100万tokens的上下文中,模型依然能够准确地定位目标文本。
OpenAI还在Multi-Round Coreference进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。
测试结果显示,GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o,并且在长达100万tokens的上下文中依然能够保持较高的性能。
在编码能力测试中,SWEBench评估将模型置于Python代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1的准确率达到55%,而GPT-4o仅为33%。
在多语言编码能力测试方面,Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。
在指令遵循能力测试中,OpenAI构建内部评估体系,模拟API开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1远超GPT-4o。
在多模态处理测试的视频MME基准测试中,GPT4.1对30-60分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。
价格方面,GPT -4.1系列在性能提升的同时,价格更具竞争力。GPT -4.1相比GPT-4o价格降低26%,而GPT -4.1Nano作为最小、最快且最便宜的模型,每百万token的成本仅为12美分。
实际应用GPT-4.1案例
汤森路透是全球领先的金融和法律信息提供商,其专业级AI助手CoCounsel被广泛应用于法律工作。
CoCounsel的主要任务是帮助法律专业人士处理复杂的法律文件和工作流程。在测试GPT-4.1时,路透社发现该模型在多文档审查方面表现出色,尤其是在处理涉及多个长文档的复杂法律工作流程时。
与GPT-4o相比,GPT-4.1在内部长上下文基准测试中的多文档审查准确性提高了17%。这一提升对于法律专业人士来说至关重要,因为它直接关系到CoCounsel处理复杂法律工作流程的能力。
法律文件通常包含多个长文档,这些文档之间可能存在复杂的相互关系,例如冲突条款或补充上下文。GPT-4.1在这些方面表现出了极高的可靠性,能够准确识别文档之间的细微关系,这对于法律分析和决策至关重要。
而在处理多个法律文件时,GPT-4.1能够有效地维护跨文档的上下文信息,并准确识别出文档之间的冲突条款或补充信息。这
Carlyle是一家全球领先的私募股权投资公司,其业务涉及大量的金融数据分析和文档处理。Carlyle使用GPT-4.1来从多个长文档中准确提取颗粒化的金融数据,这些文档包括PDF文件、Excel表格和其他复杂格式。
Carlyle的内部评估显示,GPT-4.1在从大型文档中检索数据方面的表现比其他可用模型高出50%。
GPT-4.1在处理非常大的文档时表现出色,尤其是在密集数据的检索方面。该模型成功克服了其他模型的关键限制,包括检索问题、中间位置丢失信息的错误以及跨文档的多跳推理。
这些能力使得GPT-4.1能够更高效地从复杂的金融文档中提取关键信息,为Carlyle的分析师提供了更准确、更全面的数据支持。
Windsurf是一家专注于提供高效开发工具的公司,其内部编码基准测试为评估AI模型在实际开发中的表现提供了一个重要的参考。在对GPT-4.1进行测试时,Windsurf发现该模型在编码任务中的表现比前代GPT-4o有了显著提升:GPT-4.1在Windsurf的内部编码基准测试中得分比GPT-4o高出60%。
Windsurf的用户反馈显示,GPT-4.1在工具调用方面比GPT-4o更高效,效率提升了30%。GPT-4.1在编码过程中重复进行不必要的编辑或过度细化的步骤的可能性比GPT-4o降低了约50%。
小米卖一辆车亏6万多 雷军回应:小米汽车还在投入期
小米公司创始人雷军在最新公布的第二季度财报中,首次对外披露了公司汽车业务的业绩。财报显示,小米在智能电动汽车等创新业务上取得了64亿元的收入,并在一个季度内累计交付了27307辆新车。尽管取得了一定的销售成绩,但该业务的净亏损达到了18亿元,这意味着平均每卖出一辆车,小米就会亏损超过6万元人民币。站长网2024-08-22 09:54:130000QQ浏览器推出“PDF阅读助手”AI工具 由腾讯混元大模型支持
近日,QQ浏览器推出了一款名为“PDF阅读助手”的智能工具,用户可以申请加入体验测试。该工具由腾讯混元大模型支持,可以在手机或电脑上随时使用。“PDF阅读助手”具有以下特点:首先,它支持智能摘要功能,用户不再需要逐页阅读长篇文档。通过一键操作,该助手可以迅速为您提炼出重要信息,大大节省了阅读时间。站长网2023-10-13 08:41:140000独家:值得参照的4组视频号第三方数据!
-从视频号用户下单时间看,晚上18~22点是下单高峰期。-从TOP100的视频号小店数据来看,50%的小店能把复购率做到20%以上,还有30%的小店能把复购率做到40%以上。-用单店累计订单超过1万单以上的200个视频号小店做样本,去看售后率(修改地址等售后需求),发现50%的视频号小店,有20%~30%的售后率。站长网2023-04-13 12:16:470000谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点:⭐️GoogleAI团队提出了ScreenAI,这是一个视觉语言模型,可以全面理解UI和信息图。⭐️ScreenAI在多个任务上表现出色,包括图形问答(QA),元素注释,摘要生成等。⭐️该团队发布了三个新数据集,为未来研究提供更多资源。站长网2024-02-21 10:08:530008鲜芋仙致歉声明:全国门店启动自查
3月21日,针对记者卧底鲜芋仙曝光后厨乱象一事,@MeetFresh鲜芋仙迅速作出回应,发布了一份致歉声明,表示对于单店的负面问题深感抱歉,并已进行深刻反思。为了应对这一报道,鲜芋仙总部于3月21日10:28紧急召集内部会议,并决定采取以下措施:首先,对于涉事的北京长楹天街购物中心店和北京西直门凯德MALL店,鲜芋仙决定立即关闭并进行整顿,恢复营业时间将视整顿情况而定。站长网2024-03-22 02:32:060000