首页站长资讯物理测试暴击AI圈，DeepSeek R1稳超o1、Claude，我们已进入RL黄金时代

物理测试暴击AI圈，DeepSeek R1稳超o1、Claude，我们已进入RL黄金时代

站长网2025-01-25 16:06:330阅

我们都没预料到，AI 领域的2025年是这样开始的。

DeepSeek R1真是太厉害了!

最近，「神秘的东方力量」DeepSeek 正在「硬控」硅谷。

我让 R1详细解释勾股定理。这一切都是 AI 在不到30秒时间里一次性完成的，没出任何错。简单来说，its over.

在国内外 AI 圈，普通网友发现了神奇的强大新 AI（还开源），学界专家纷纷喊出「要奋起直追」，还有小道消息称海外的 AI 公司已经如临大敌。

就说这个本周刚发布的 DeepSeek R1，它没有任何监督训练的纯强化学习路线令人震撼，从去年12月 Deepseek-v3基座发展到如今堪比 OpenAI o1的思维链能力，似乎是很快达成的事。

但在 AI 社区热火朝天的读技术报告、对比实测之余，人们还是对 R1有所怀疑:它除了能跑赢一堆 Benchmark 以外，真的能领先吗?

能自建模拟「物理规律」

你不信?来让大模型玩玩弹球?

最近几天，AI 社区的一些人开始沉迷一项测试 —— 测试不同的 AI 大模型（尤其是所谓的推理模型）来处理一类问题:「编写一个 Python 脚本，让一个黄色球在某个形状内弹跳。让该形状缓慢旋转，并确保球停留在形状内。」

一些模型在这项「旋转球形」基准测试中的表现优于其他模型。据 CoreView CTO Ivan Fioravanti 称，国内人工智能实验室 DeepSeek 的开源大模型 R1完胜 OpenAI 的 o1pro 模式，后者作为 OpenAI ChatGPT Pro 计划的一部分，每月收费200美元。

左边是 OpenAI o1，右边是 DeepSeek R1。如上所述，这里的 Prompt 是:「write a python script for a bouncing yellow ball within a square， make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根据另一位网友在 X 上的说法，Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5Pro 模型对物理原理判断错误，导致球偏离了形状。也有用户报告称，谷歌最新的 Gemini2.0Flash Thinking Experimental，以及相对更旧的 OpenAI GPT-4o 都一次性通过了评估。

但这里面也是能分出高下的:

在这个推文底下的网友表示:o1的能力原本很好，在 OpenAI 优化速度过后就变弱了，即使是每月200美元的会员版也一样。

模拟弹跳球是一个经典的编程挑战。精确的模拟结合了碰撞检测算法，其算法需要去识别两个物体（例如一个球和一个形状的侧面）何时发生碰撞。编写不当的算法会影响模拟的性能或导致明显的物理错误。

AI 初创公司 Nous Research 的研究员 N8Programs 表示，他花了大约两个小时从头开始编写一个旋转七边形中的弹跳球。「必须跟踪多个坐标系，了解每个系统中的碰撞是如何进行的，并从头设计代码以使其具有鲁棒性。」

虽然弹跳球和旋转形状是对编程技能的合理测试，但对于大模型来说还是个新项目，即使是提示中的细微变化也可能产生出不同的结果。所以如果想让它最终成为 AI 大模型基准测试的一部分的话，还需要改进。

无论如何，经过这一波实测之后，我们对大模型之间的能力不同有了观感。

DeepSeek 是新的「硅谷神话」

DeepSeek 正让大洋彼岸陷入「恐慌」。

Meta 员工发帖称「Meta 工程师们正在疯狂地分析 DeepSeek，试图从中复制任何可能的东西。」

而 AI 科技初创公司 Scale AI 创始人 Alexandr Wang 也公开表示，中国人工智能公司 DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。

他还认为，过去十年来，美国可能一直在人工智能竞赛中领先于中国，但 DeepSeek 的 AI 大模型发布可能会「改变一切」。

X 博主 @8teAPi 则认为，DeepSeek 并不是一个「副业项目」，而是像洛克希德・马丁以前的「臭鼬工厂」。

所谓「臭鼬工厂」，就是当初洛克希德・马丁公司（Lockheed Martin）为了研发诸多先进飞行器专门成立的一个高度机密、相对独立的小团队，从事尖端或非常规的技术研究与开发。从 U-2侦察机、SR-71黑鸟，到 F-22猛禽、F-35闪电 II 战斗机都是从这里走出来的。

后来，这个词逐渐演变成一个通用术语，用来形容在大公司或组织内部设立的「小而精」、相对独立且自由度更高的创新团队。

他给出的理由有两个:

一方面是 DeepSeek 拥有大量的 GPU，据称有超过一万块，而 Scale AI 的 CEO Alexandr Wang 甚至表示可能达到5万块。

另一方面，DeepSeek 只从中国排名前三的大学招聘人才，这意味着 DeepSeek 与阿里巴巴和腾讯具有同等的竞争力。

仅凭这两个事实，就可以看出，显然 DeepSeek 在商业上取得了成功，并且已经足够知名，能够获得这些资源。

至于 DeepSeek 的开发成本，该博主表示，中国科技公司可以获得各种各样的补贴，比如低用电成本和用地。

因此，DeepSeek 非常有可能大部分成本都被「安置」在核心业务之外的某个账目上，或者以某种数据中心建设补贴的形式存在。甚至除了创始人之外，没人完全清楚所有财务安排。有些协议可能只是「口头协定」，只靠声誉就能敲定。

不管怎样，有几点是明确的:

这个模型非常出色，与 OpenAI 两个月前发布的版本相当，当然也有可能不如 OpenAI 和 Anthropic 尚未发布的新模型。

从目前来看，研究方向仍主要由美国公司主导，DeepSeek 模型属于对 o1版本的「快速跟进」，但 DeepSeek 的研发进度非常迅猛，比预期更快地迎头赶上，他们并没有抄袭或作弊，最多只是逆向工程。

DeepSeek 主要是在培养自己的人才，而不是依赖美国培养的博士，这大大扩展了人才库。

与美国公司相比，DeepSeek 在知识产权许可、隐私、安全、政治等方面受到的约束较少，围绕错误地使用那些不想被训练的数据的担忧也较少。诉讼更少，律师更少，也更少顾虑。

毫无疑问，越来越多的人认为2025年将会是决定性的一年。与此同时各家公司都在摩拳擦掌，比如 Meta 就正在建立一个2GW 的数据中心，预计在2025年投资600-650亿美元，年底拥有超过130万块 GPU。

Meta 甚至用一张图表展示了2千兆瓦数据中心与纽约曼哈顿的对比。

但现在 DeepSeek 用更低的成本，更少的 GPU 做到了更好，怎能不让人焦虑?

Yann LeCun:要感谢开源

Hyperbolic 的 CTO、联合创始人 Yuchen Jin 发帖表示，在仅4天时间里，DeepSeek-R1向我们证明了4个事实:

开源 AI 仅落后于闭源 AI 不到6个月

中国正在主导开源 AI 竞赛

我们正进入大语言模型强化学习的黄金时代

蒸馏模型非常强大，我们将在手机上运行高智能 AI

由 DeepSeek 引发的连锁反应仍在继续，比如 OpenAI o3-mini 免费可用、社区中希望能减少关于 AGI/ASI 的模糊讨论以及传闻 Meta 陷入恐慌等。

他认为，现在很难预测最终谁会获胜，但不要忘记后发优势的力量，毕竟我们都知道是 Google 发明了 Transformer，而 OpenAI 解锁了其真正潜力。

此外，图灵奖得主、Meta 首席人工智能科学家 Yann LeCun 也表达了自己的看法。

「对于那些看到 DeepSeek 的性能就认为『中国正在超越美国的 AI』的人，你理解错了。正确的理解是:开源模型正在超越专有模型。」

LeCun 表示，DeepSeek 之所以这次一鸣惊人，是因为他们从开放研究和开源（如 Meta 的 PyTorch 和 Llama）中获益。DeepSeek 提出了新想法，并在他人工作的基础上构建。因为他们的工作是公开发布和开源的，每个人都可以从中受益，这就是开放研究和开源的力量。

网友们的反思还在继续，在对于新技术发展兴奋的同时，也能感受到一点点忧虑的气氛，毕竟 DeepSeek 们的出现，可能会带来真金白银的影响。

物理测试暴击AI圈DeepSeekR1稳超o1Claude我们已进入RL黄金时代

0000

评论列表

共(0)条

相关推荐

站长资讯
32专家MoE大模型免费商用！性能全面对标Llama3，单token推理消耗仅5.28%
每个token只需要5.28%的算力，精度就能全面对标Llama3。开源大模型，再添一位重量级选手——来自浪潮信息的32专家MoE模型，源2.0-M32。不仅拥有极高的回报投入比，而且全面开放，训练代码和模型权重都可任意下载，商业使用也免费、无需授权。那么，这到底是怎样的一款模型?1/19算力消耗，性能对标Llama3
站长网2024-05-31 02:22:37
0000
站长资讯
努比亚Z60 Ultra官宣将于12月19日发布
努比亚宣布，Z60Ultra手机将于12月19日14:00发布。首先，努比亚Z60Ultra将搭载“三主摄三OIS”和“第五代屏下摄像”技术，意味着用户可以期待在拍照和摄像方面有更好的体验。
站长网2023-12-07 10:36:27
0000
站长资讯
微信视频号推出“直播授权”功能青少年可申请观看直播
今日，微信视频号宣布推出“直播授权”功能。健康、正向、有营养，好看的直播内容，孩子想看时，只需要在手机上点击“向监护人申请”，监护人就会收到临时访问视频号直播的申请，点击“同意”，孩子就可以观看这场直播了。据悉，“直播授权”功能仅限单个授权，每场直播都要发送申请。有了“直播授权”功能，在“青少年模式”下小朋友也能通过微信直接访问视频号直播。
站长网2023-05-23 17:58:05
0000
库克总薪较前年缩水超3500万美元同比下降 36%
苹果公司近日发布了年度报告，详细披露了公司高管薪酬、股东提案等重要信息。其中，首席执行官蒂姆·库克的薪酬成为关注的焦点。根据报告，库克在2023年的总收入为6320万美元，比2022年的9940万美元收入下降了约36%。虽然这一数字高于他2023年目标薪酬4900万美元，但与2022年的收入相比，仍然有所下滑。
站长网站长资讯2024-01-12 09:14:45
0001
站长资讯
ChatGPT工程师年薪曝光：中位数约674万元人民币
快科技11月9日消息，随着ChatGPT的爆火，OpenAI公司也成为了外界关注的焦点。根据美国薪资跟踪网站的数据显示，目前OpenAI软件工程师的中位数年薪高达92.5万美元（约合674万元人民币），包含了30万美元的基本工资和62.5万美元的利润参与单位（PPU）。
站长网2023-11-09 21:22:37
0000