OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

站长网2024-12-21 09:51:320阅

今天凌晨2点，OpenAI开启第12天技术直播，也是最后一天。不负众望终于整了个大的，发布全新预览版模型——o3。

根据发布的o3测试数据显示，美国AIME数学竞赛中达到了96.7分，大幅度超过了o1预览版的56.7和o1的83.3%，仅错了一道题相当于一名顶级数学家的水平。

而在ARCAGI的测试中，o3在低算力资源情况下实现了75.7%，而当增加计算资源后实现了87.5%，这也是首次有大模型超过了人类85%的水平，实现重大技术突破。

有意思的是，OpenAI直接跳过了o2发布了o3，主要原因是名字与英国著名电信公司o2发生了冲突无法使用，所以才直接来了个第三代~

o3主要测试数据

在软件风格基准测试中，由真实世界软件任务组成的3benchverified基准测试里，o3模型准确率达到71.7%，相比o1模型提升超过20%。

在竞赛代码领域，o3模型在CodeForces竞赛编码网站上表现卓越，达到了约2727的ELO分数，远超o1模型的1891分，甚至超越了OpenAI首席科学家Yakov的分数，接近公司内部顶尖编程高手的水平，这表明o3在处理复杂编程竞赛任务时具备出色的逻辑推理和算法实现能力。

在数学能力测试中，o3模型在Amy考试中的准确率高达96.7%，而o1模型为83.3%。在这个被视为美国数学奥林匹克预选考试的高难度测试中，o3模型通常仅错一题，表现十分出色。

在衡量模型在博士阶段科学问题处理能力的GPQADiamond基准测试中，o3模型取得了87.7%的准确率，比o1模型的78%提高了约10%，甚至超越了领域专家博士通常能达到的70%的水平，这表明o3模型在数学和科学领域的复杂问题处理上已接近甚至超越人类专家水平。

在ARCAGI基准测试中，o3模型取得了重大突破。在低计算条件下，o3模型在ARCAGI的半私有保留集上得分为75.7，这一成绩在符合计算要求的同时，成为了新的行业领先水平。

当进一步提升计算能力，让o3模型进行更长时间的思考时，其在同一隐藏保留集上的得分更是高达87.5%。这一成绩尤为重要，因为人类在该测试中的表现阈值约为85%，O3模型的得分超过了这一阈值，标志着人工智能在该领域取得了新的里程碑。

此前，ARCAGI版本一花费了五年时间，才使领先的前沿模型从0%提升到5%，而o3模型的出色表现无疑展示了OpenAI在人工智能技术研发上的巨大进步。

o3Mini版本

与o3模型相比，o3Mini模型在性能与成本平衡方面表现出色，能够以较低的成本提供高效的服务。

在编码评估方面，o3Mini模型展现出了出色的性能提升。在CodeForces的评估中，随着思考时间的增加，o3Mini模型的表现不断提升，逐渐超越了o1Mini模型。

在中位思考时间下，o3Mini模型的性能甚至优于o1模型，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下，获得更高效的编程辅助，提高开发效率，降低开发成本。

在数学能力测试中，o3Mini模型在2024年数据集上表现出色。o3Mini低模型的性能与o1Mini相当，而o3Mini中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时，o3Mini模型也能展现出一定的优势，实现了接近即时响应的效果。

此外，o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能，与O1模型相当。在实际应用中，o3Mini模型在大多数评估中实现了可比或更好的性能。

在现场演示中，o3Mini 模型的强大功能得到了直观展示。例如，在一项任务中，模型被要求使用Python 实现一个代码生成器和执行器。当启动运行该 Python 脚本后，模型成功启动了本地服务器，并生成了包含文本框的用户界面。

用户在文本框中输入编码请求后，模型能够迅速将请求发送至 API，并自动解决任务，生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但 o3Mini 模型在低推理努力模式下依然表现出了极快的处理效率。

目前，该模型还处于安全测试阶段，从今天开始o3Mini 模型率先开放给外部安全研究人员进行测试，随后 o3模型也将参与其中。研究人员可通过访问 OpenAI 的官方网站，填写申请表格参与测试。

OpenAI甩王炸发布新模型o3一夜再次改变世界

0000

评论列表

共(0)条

相关推荐

站长资讯
Google 扩展其漏洞奖励计划以增强生成式人工智能系统的安全性
站长之家(ChinaZ.com)10月28日消息:Google宣布，将扩展其漏洞奖励计划（VRP），以奖励研究人员寻找针对生成式人工智能（AI）系统的攻击方案，以增强AI的安全性和安全性。
站长网2023-10-28 13:01:47
0000
站长资讯
SciMatch：AI看相为你找灵魂伴侣准确率达87%
要点:1.SciMatch是一款利用"AI社会科学"的应用，通过面相识别人格特征，为用户寻找潜在灵魂伴侣，宣称准确率高达87%。2.用户只需上传一张自拍照，应用使用名为"A.I.Ruby"的AI算法进行面相分析，并根据性格特质匹配约会对象。3.应用提供了不同方式的匹配度计算，包括AI匹配和手动点赞，以及音视频实时聊天功能。
站长网2023-11-03 16:15:36
0001
1月6日CES正式亮相！RTX 5090、5080都来了：起步都1.2万元了
快科技12月28日消息，不少玩家期待的RTX50系列将要正式亮相，时间应该锁定在1月6日的CES大会上。从最新曝光的细节看，RTX5090将启用170个流处理器单元（SMs），而其总数为192个，核心数量为21760，较RTX4090的AD102完整核心减少了11.4%。
站长网站长资讯2024-12-29 10:49:59
0000
站长资讯
谁还记得导演小策？
近半年没有更新的导演小策在6月终于在B站更新了一期视频。45分钟的时长、迥然不同的内容题材，导演小策似乎想在爆火的“广场宇宙”之外开发新的故事线。然而从数据上看，正片的117万播放仅仅比预告片多了10万播放，这对于一个拥粉300多万的前“百大UP”来说，无疑遭遇了“滑铁卢”。同时，与《广场往事》的一片叫好相比，这期融入了诸多互联网热梗的新叙事却在弹幕与评论中受到了诸多质疑。
站长网2023-07-04 15:58:13
0000
站长资讯
谷歌与Singular Computing达成AI专利纠纷和解
谷歌刚刚和一家人工智能技术专利诉讼的对手达成了数十亿美元的和解。这家硬件和软件开发公司SingularComputing从谷歌那里获得了一笔未公开的和解金，这结束了Singular的创始人JosephBates博士对谷歌提起的长达五年的联邦法院专利侵权案。
站长网2024-01-29 15:47:17
0000