首页站长资讯神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

21998

神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

站长网2024-05-01 15:06:590阅

这场等待「GPT-5」的游戏啥时候才能结束?

GPT-5啥时候来?估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布，还是我们可以从边角料的爆料中得知一点点信息，大家对未来将要发布的这一模型充满了期待。

但奥特曼在一次访谈中表示，OpenAI 现在采用迭代部署的方式进行研发，而不是秘密进行直到完成 GPT-5才公布，他们的目标不是给世界带来震惊性的更新，恰恰相反，OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势，如果大家有那种感觉的话，OpenAI 会更加快速迭代地发布他们的产品，比如在发布 GPT-5之前，先上线 GPT-4.5。

无论如何，大家对 GPT-5的好奇心已经拉满。传言中 OpenAI 今天会有一些大的发布，我们也没有等来。

不过，LMSYS Chatbot Arena 上出现了一个神秘的模型，在社交媒体上引起了广泛的热议。

这个神秘的模型名为「gpt2-chatbot」，当有人问是谁创建了它?该模型自己的回复时竟然是 OpenAI，并且是基于 GPT-4架构。

图源:X@TomDavenport

这个模型吸引了大量网友的围观和测试，结果很多人发现，gpt2-chatbot 的能力似乎与 GPT-4保持在同一水准，甚至在一些任务上的表现比 GPT-4Turbo 还要好。

因此，网友们纷纷猜测，gpt2-chatbot 是 GPT-4的某个新版本，比如 GPT-4.5，或者 GPT-5的测试版。

图源:X@elder_plinius

还有人扯到了消失了很久的 OpenAI 首席科学家Ilya Sutskever，说 gpt2-chatbot 实际上是 Ilya 在答题。

图源:X@roramora0

不过今早，奥特曼神叨叨地回复了一句，表示对 gpt2情有独钟。GPT-2于2019年推出，参数量为15亿。

奥特曼的编辑记录更加激起了网友的好奇，先是 gpt-2后是 gpt2，难道 gpt2（二代）要来了吗?

图源:X@andromeda74356

不管 gpt2-chatbot 最终是什么，我们先来看看它在哪些任务上表现更强。

神秘的 gpt2-chatbot 强在哪里?

先来看 gpt2-chatbot 与 gpt-4-trubo 分别画独角兽（TikZ 独角兽）的效果对比，显然前者的效果更好一点。

图源:X@JoshhuaSays

另一个类似的画独角兽示例，gpt2-chatbot 与 Claude Opus 的效果比较。

下图从左往右依次是 GPT-4Turbo、Llama3和 Gemini1.5pro 的生成效果。

图源:X@SullyOmarr

再来看数学方面的一些例子，其中 gpt2-chatbot 可以一次性地解答国际数学奥林匹克（IMO）问题。

图源:X@itsandrewgao

不仅如此，有人发现了 gpt2-chatbot 比其他所有模型表现都要好的任务:「A B-1」问题。

图源:X@DimitrisPapail

对于一些逻辑推理题，gpt2-chatbot 也更擅长，并强于其他大模型。

比如，当问 gpt2-chatbot「我今天有3个苹果，昨天吃了一个。现在有几个苹果?」它给出的回复很准确（3个），并解释了原因(昨天吃了一个并不影响现在有几个苹果)。很少能有模型回答对这个典型的推理题。

作为对比，GPT-4、Claude-3Opus、Gemini Ultra、Llama3-70b 都回答错了。

图源:X@airesearch12

再比如，「Jessica 有两个兄弟和一个姐妹。她的兄弟各有多少个姐妹?」显然 gpt2-chatbot 回答对了。

而 Claude-3Opus 搞错了。

图源:X@skirano

此外，gpt2-chatbot在一些哲学问题上也答得很好，在完整性和基本事实方面，与 GPT-4Turbo 相比，具有非常相似的解答思路。

图源:X@anonkanav

图灵奖得主Yann LeCun也赶来围观，不过他并不看好这个模型，并表示人工智能的炒作已经变成了讽刺。

LeCun 之所以这样说，是因为有人问 gpt2-chatbot「一个农夫带着一只羊和一只山羊站在河的左岸，旁边有一条船。船只能装下一个人和两个动物。农夫如何带着羊和山羊到达河的右岸，并尽可能减少旅行次数?」

对于这个问题，正常来说只需一趟就可以了，但 gpt2-chatbot 把答案弄得非常复杂，还分了5步完成。

图源:https://twitter.com/ylecun/status/1785100806695325804

可以说，这些测试结果让我们看到了 gpt2-chatbot 在画图、数学、逻辑推理等任务上的不俗能力，同时也会出现将简单问题复杂化的情况。但要说它就是 GPT-4或 GPT-5，有人还是不同意。

因此，有人猜测 gpt2-chatbot 实际上还是此前的 GPT-2，但是使用现代助理数据集进行了微调。在这种情况下，这意味着 OpenAI 最初的预训练效果仍然令人惊叹，并在几年后仍比其他模型更好。

图源:X@albfresco

如何体验?

首先你需要进入 chat.lmsys.org:

在如下的界面中，点击 Direct Chat:

然后选择 gpt2-chatbot 就可以测试了:

不过，当我们向 gpt2-chatbot 提问时，收到提示「此模型速率已达到上限」，看来大家只能再等等了。

地址:https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99

除了 gpt2-chatbot，OpenAI 今天还发布了一个消息，他们在2月份宣布的 Memory 功能，现在可供所有 ChatGPT Plus 付费用户使用。

神秘GPT模型引爆社区GPT4 5 GPT5谣言满天飞奥特曼在线围观

0000

评论列表

共(0)条

相关推荐

站长资讯
商汤用AI复活了汤老师
在商汤2024年年会上，汤晓鸥数字人现身，来了一场跨越时空的重逢。按照以往习惯，每年汤老师都会说上一段脱口秀，已经成为商汤年会保留节目。熟悉汤老师演讲都知道，他是被人工智能事业耽误的“脱口秀大师”，如今以数字人的形象，再度用幽默的方式与我们相见。除了被他的幽默感染，不少人还被逼真的效果所惊艳，堪称“年会最佳彩蛋”。并由此引发大家对汤教授的怀念。汤晓鸥数字人现身商汤年会
站长网2024-03-04 21:38:05
0000
站长资讯
Evisort成功开发法律合同领域的大型语言模型(LLM)
Evisort成功开发了专门用于法律协议的大型语言模型（LLM），并将其作为其新的多方位生成AI引擎的关键组成部分。该LLM将使Evisort能够提供比通用的第三方LLMs更准确和响应更灵活的AI创新，从而帮助组织更好地管理合同。图源备注：图片由AI生成，图片授权服务商Midjourney
站长网2023-10-11 16:25:26
0000
站长资讯
体验当甲方的快乐！用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……
*头图来源于DALL·E3，描述:一个由拟人化的秋天树叶组成的民谣乐队的2D动画，每一片树叶都演奏着传统的蓝草乐器，在乡村森林的背景中，点缀着丰收之月的柔光。全自动画图神器来了!ChatGPT现在能直接出图了。
站长网2023-10-12 17:48:17
0003
站长资讯
马斯克称推特正在测试一个名为文章的新功能
theverge报道称，埃隆·马斯克透露，推特正在开发一项功能，让你可以在平台上发布文章。马斯克在回复一位用户关于这个正在开发中的工具的推文时说，这个功能将“允许用户发布非常长、复杂的文章，包含混合媒体”。他说，“你想的话，可以发布一本书。”
站长网2023-07-19 19:18:29
0000
站长资讯
在线购物“虚拟试穿”模型Diffuse to Choose（DTC）可将任何商品完美放入任何环境中
DiffusetoChoose（DTC）是一种新型的虚拟试穿技术，它允许用户将任何商品放入任何环境中，实现逼真的在线购物体验。这一模型能够更好地捕捉商品的细节，并提升修复质量，同时保证产品在不同环境中看起来自然和真实。项目地址:https://top.aibase.com/tool/diffuse-to-choose
站长网2024-01-29 14:36:17
0000