神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观
这场等待「GPT-5」的游戏啥时候才能结束?
GPT-5啥时候来?估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布,还是我们可以从边角料的爆料中得知一点点信息,大家对未来将要发布的这一模型充满了期待。
但奥特曼在一次访谈中表示,OpenAI 现在采用迭代部署的方式进行研发,而不是秘密进行直到完成 GPT-5才公布,他们的目标不是给世界带来震惊性的更新,恰恰相反,OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势,如果大家有那种感觉的话,OpenAI 会更加快速迭代地发布他们的产品,比如在发布 GPT-5之前,先上线 GPT-4.5。
无论如何,大家对 GPT-5的好奇心已经拉满。传言中 OpenAI 今天会有一些大的发布,我们也没有等来。
不过,LMSYS Chatbot Arena 上出现了一个神秘的模型,在社交媒体上引起了广泛的热议。
这个神秘的模型名为「gpt2-chatbot」,当有人问是谁创建了它?该模型自己的回复时竟然是 OpenAI,并且是基于 GPT-4架构。
图源:X@TomDavenport
这个模型吸引了大量网友的围观和测试,结果很多人发现,gpt2-chatbot 的能力似乎与 GPT-4保持在同一水准,甚至在一些任务上的表现比 GPT-4Turbo 还要好。
因此,网友们纷纷猜测,gpt2-chatbot 是 GPT-4的某个新版本,比如 GPT-4.5,或者 GPT-5的测试版。
图源:X@elder_plinius
还有人扯到了消失了很久的 OpenAI 首席科学家Ilya Sutskever,说 gpt2-chatbot 实际上是 Ilya 在答题。
图源:X@roramora0
不过今早,奥特曼神叨叨地回复了一句,表示对 gpt2情有独钟。GPT-2于2019年推出,参数量为15亿。
奥特曼的编辑记录更加激起了网友的好奇,先是 gpt-2后是 gpt2,难道 gpt2(二代)要来了吗?
图源:X@andromeda74356
不管 gpt2-chatbot 最终是什么,我们先来看看它在哪些任务上表现更强。
神秘的 gpt2-chatbot 强在哪里?
先来看 gpt2-chatbot 与 gpt-4-trubo 分别画独角兽(TikZ 独角兽)的效果对比,显然前者的效果更好一点。
图源:X@JoshhuaSays
另一个类似的画独角兽示例,gpt2-chatbot 与 Claude Opus 的效果比较。
下图从左往右依次是 GPT-4Turbo、Llama3和 Gemini1.5pro 的生成效果。
图源:X@SullyOmarr
再来看数学方面的一些例子,其中 gpt2-chatbot 可以一次性地解答国际数学奥林匹克(IMO)问题。
图源:X@itsandrewgao
不仅如此,有人发现了 gpt2-chatbot 比其他所有模型表现都要好的任务:「A B-1」问题。
图源:X@DimitrisPapail
对于一些逻辑推理题,gpt2-chatbot 也更擅长,并强于其他大模型。
比如,当问 gpt2-chatbot「我今天有3个苹果,昨天吃了一个。现在有几个苹果?」它给出的回复很准确(3个),并解释了原因(昨天吃了一个并不影响现在有几个苹果)。很少能有模型回答对这个典型的推理题。
作为对比,GPT-4、Claude-3Opus、Gemini Ultra、Llama3-70b 都回答错了。
图源:X@airesearch12
再比如,「Jessica 有两个兄弟和一个姐妹。她的兄弟各有多少个姐妹?」显然 gpt2-chatbot 回答对了。
而 Claude-3Opus 搞错了。
图源:X@skirano
此外,gpt2-chatbot在一些哲学问题上也答得很好,在完整性和基本事实方面,与 GPT-4Turbo 相比,具有非常相似的解答思路。
图源:X@anonkanav
图灵奖得主Yann LeCun也赶来围观,不过他并不看好这个模型,并表示人工智能的炒作已经变成了讽刺。
LeCun 之所以这样说,是因为有人问 gpt2-chatbot「一个农夫带着一只羊和一只山羊站在河的左岸,旁边有一条船。船只能装下一个人和两个动物。农夫如何带着羊和山羊到达河的右岸,并尽可能减少旅行次数?」
对于这个问题,正常来说只需一趟就可以了,但 gpt2-chatbot 把答案弄得非常复杂,还分了5步完成。
图源:https://twitter.com/ylecun/status/1785100806695325804
可以说,这些测试结果让我们看到了 gpt2-chatbot 在画图、数学、逻辑推理等任务上的不俗能力,同时也会出现将简单问题复杂化的情况。但要说它就是 GPT-4或 GPT-5,有人还是不同意。
因此,有人猜测 gpt2-chatbot 实际上还是此前的 GPT-2,但是使用现代助理数据集进行了微调。在这种情况下,这意味着 OpenAI 最初的预训练效果仍然令人惊叹,并在几年后仍比其他模型更好。
图源:X@albfresco
如何体验?
首先你需要进入 chat.lmsys.org:
在如下的界面中,点击 Direct Chat:
然后选择 gpt2-chatbot 就可以测试了:
不过,当我们向 gpt2-chatbot 提问时,收到提示「此模型速率已达到上限」,看来大家只能再等等了。
地址:https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99
除了 gpt2-chatbot,OpenAI 今天还发布了一个消息,他们在2月份宣布的 Memory 功能,现在可供所有 ChatGPT Plus 付费用户使用。
英特尔在 Meteor Lake 中对 AI 的关注或将为行业注入新的活力
随着英特尔「MeteorLake」平台的发布,业界再次掀起一阵风暴,新平台采用了基于chiplet-based的设计,并专门用于人工智能(AI)应用的神经网络处理单元(NPU),这不仅仅是一次代际升级,更是英特尔引领计算新纪元的有力一步,它有望为近年来处于停滞状态的PC行业注入新的活力,而人工智能将成为这一切的核心。引领风潮的人工智能站长网2023-10-24 21:25:090000苹果宣布与博通达成数十亿美元合作协议
日前,苹果宣布与美国领先的技术和先进制造公司博通达成一项新的多年期、价值数十亿美元的协议。通过此次合作,博通将在美国开发和生产一些关键的5G射频组件。根据这项合作协议,博通将在美国开发和生产一系列关键的5G射频组件,包括FBAR滤波器和尖端的无线连接组件。站长网2023-05-24 16:00:210000华为畅享70z全新发布!搭载6000Ah大电池 1099元起明日预售
快科技2月21日消息,今日,华为官方宣布全新机型畅享70z于明日10:08分开启预售。据介绍,华为畅享70z共有三款配色,分别是幻夜黑、雪域白、星河蓝。两种版本分别是128GB、256GB。在官方定价上,华为畅享70z128GB版本售价为1099元,256GB版本售价为1299元。官方表示,华为畅享70z搭载了6000Ah的大电池,配备华为22.5W的超级快充,可实现超能续航。站长网2024-02-21 20:22:420001看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”
大模型们胡说八道太严重,英伟达看不下去了。他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。这个新工具名叫“护栏技术”(NeMoGuardrails),相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。站长网2023-05-04 09:24:400000谷歌Gmail新功能“Help Me Write”将很快支持语音输入
谷歌的人工智能辅助电子邮件起草功能“HelpMeWrite”即将迎来语音输入的支持。这一新功能旨在使用生成式人工智能帮助用户更轻松地起草电子邮件,并目前仍处于实验室测试阶段。目前,“HelpMeWrite”功能需要用户输入书面提示,例如“帮我写一篇我在会议上遇到的人的介绍”。然而,根据TheSpAndroid的报道,很快用户将能够通过语音输入来使用这一功能。站长网2024-01-23 09:39:530000