国际科技财经移民娱乐民生时事体育

>

神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

科技

内容产业

8月前

机器之心报道

编辑：杜伟、陈萍

这场等待「GPT-5」的游戏啥时候才能结束？

GPT-5 啥时候来？估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布，还是我们可以从边角料的爆料中得知一点点信息，大家对未来将要发布的这一模型充满了期待。

但奥特曼在一次访谈中表示，OpenAI 现在采用迭代部署的方式进行研发，而不是秘密进行直到完成 GPT-5 才公布，他们的目标不是给世界带来震惊性的更新，恰恰相反，OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势，如果大家有那种感觉的话，OpenAI 会更加快速迭代地发布他们的产品，比如在发布 GPT-5 之前，先上线 GPT-4.5。

无论如何，大家对 GPT-5 的好奇心已经拉满。传言中 OpenAI 今天会有一些大的发布，我们也没有等来。

不过，LMSYS Chatbot Arena 上出现了一个神秘的模型，在社交媒体上引起了广泛的热议。

这个神秘的模型名为「gpt2-chatbot」，当有人问是谁创建了它？该模型自己的回复时竟然是 OpenAI，并且是基于 GPT-4 架构。

图源：X@TomDavenport

这个模型吸引了大量网友的围观和测试，结果很多人发现，gpt2-chatbot 的能力似乎与 GPT-4 保持在同一水准，甚至在一些任务上的表现比 GPT-4 Turbo 还要好。

因此，网友们纷纷猜测，gpt2-chatbot 是 GPT-4 的某个新版本，比如 GPT-4.5，或者 GPT-5 的测试版。

图源：X@elder_plinius

还有人扯到了消失了很久的 OpenAI 首席科学家 Ilya Sutskever，说 gpt2-chatbot 实际上是 Ilya 在答题。

图源：X@roramora0

不过今早，奥特曼神叨叨地回复了一句，表示对 gpt2 情有独钟。GPT-2 于 2019 年推出，参数量为 15 亿。

奥特曼的编辑记录更加激起了网友的好奇，先是 gpt-2 后是 gpt2，难道 gpt2（二代）要来了吗？

图源：X@andromeda74356

不管 gpt2-chatbot 最终是什么，我们先来看看它在哪些任务上表现更强。

神秘的 gpt2-chatbot 强在哪里？

先来看 gpt2-chatbot 与 gpt-4-trubo 分别画独角兽（TikZ 独角兽）的效果对比，显然前者的效果更好一点。

图源：X@JoshhuaSays

另一个类似的画独角兽示例，gpt2-chatbot 与 Claude Opus 的效果比较。

下图从左往右依次是 GPT-4 Turbo、Llama 3 和 Gemini 1.5 pro 的生成效果。

图源：X@SullyOmarr

再来看数学方面的一些例子，其中 gpt2-chatbot 可以一次性地解答国际数学奥林匹克（IMO）问题。

图源：X@itsandrewgao

不仅如此，有人发现了 gpt2-chatbot 比其他所有模型表现都要好的任务：「A+B-1」问题。

图源：X@DimitrisPapail

对于一些逻辑推理题，gpt2-chatbot 也更擅长，并强于其他大模型。

比如，当问 gpt2-chatbot「我今天有 3 个苹果，昨天吃了一个。现在有几个苹果？」它给出的回复很准确（3 个），并解释了原因（昨天吃了一个并不影响现在有几个苹果）。很少能有模型回答对这个典型的推理题。

作为对比，GPT-4、Claude-3 Opus、Gemini Ultra、Llama 3-70b 都回答错了。

图源：X@airesearch12

再比如，「Jessica 有两个兄弟和一个姐妹。她的兄弟各有多少个姐妹？」显然 gpt2-chatbot 回答对了。

而 Claude-3 Opus 搞错了。

图源：X@skirano

此外，gpt2-chatbot 在一些哲学问题上也答得很好，在完整性和基本事实方面，与 GPT-4 Turbo 相比，具有非常相似的解答思路。

图源：X@anonkanav

图灵奖得主 Yann LeCun 也赶来围观，不过他并不看好这个模型，并表示人工智能的炒作已经变成了讽刺。

LeCun 之所以这样说，是因为有人问 gpt2-chatbot「一个农夫带着一只羊和一只山羊站在河的左岸，旁边有一条船。船只能装下一个人和两个动物。农夫如何带着羊和山羊到达河的右岸，并尽可能减少旅行次数？」

对于这个问题，正常来说只需一趟就可以了，但 gpt2-chatbot 把答案弄得非常复杂，还分了 5 步完成。

图源：https://twitter.com/ylecun/status/1785100806695325804

可以说，这些测试结果让我们看到了 gpt2-chatbot 在画图、数学、逻辑推理等任务上的不俗能力，同时也会出现将简单问题复杂化的情况。但要说它就是 GPT-4 或 GPT-5，有人还是不同意。

因此，有人猜测 gpt2-chatbot 实际上还是此前的 GPT-2，但是使用现代助理数据集进行了微调。在这种情况下，这意味着 OpenAI 最初的预训练效果仍然令人惊叹，并在几年后仍比其他模型更好。

图源：X@albfresco

如何体验？

首先你需要进入 chat.lmsys.org：

在如下的界面中，点击 Direct Chat：

然后选择 gpt2-chatbot 就可以测试了：

不过，当我们向 gpt2-chatbot 提问时，收到提示「此模型速率已达到上限」，看来大家只能再等等了。

地址：https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99

除了 gpt2-chatbot，OpenAI 今天还发布了一个消息，他们在 2 月份宣布的 Memory 功能，现在可供所有 ChatGPT Plus 付费用户使用。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

来源：机器之心

相关新闻

奥特曼「草莓」推文引爆全网大猜想，神秘新模型现身，GPT-5 马上要来了？神秘大模型一夜刷屏，能力太强被疑GPT-4.5，奥特曼避而不答打哑谜神秘大模型一夜爆红！奥特曼亲自确认，疑似GPT-4.5发布奥特曼秀5颗草莓疯狂暗示GPT-5？匿名新模型神秘现身，数学超强！奥特曼本人确认：神秘gpt2不是GPT-4.5！OpenAI神秘搞事，GPT-4.5默默上线？推理碾压GPT-4网友震惊，奥特曼笑而不语 GPT-4.5/5 内测版回归？OpenAI 神秘新模型惊艳网友，另一个重磅更新即将上线 OpenAI推出在线商店GPT Store；百川智能发布角色大模型；王慧文参投老友AI公司｜AIGC周观察第三十期 Meta发布Llama 3；山姆·阿尔特曼称GPT-6将成为通用工具；刘强东AI数字人开启直播｜AIGC周观察第四十期 OpenAI有望在今年夏季推出GPT-5；英伟达推出更强GPU芯片；马斯克宣布正式开源Grok-1｜AIGC周观察第三十七期 OpenAI“草莓”落地了？ChatGPT惊现神秘GPT-4o模型，网友热议：新版本提升不多，但逻辑推理有改进神秘模型gpt2-chatbot实力被赞超越GPT-4：sam亲自确认，或是OpenAI全新模型神秘大模型一夜“征服”所有人，超GPT-4却无人认领？网友：OpenAI 要有大麻烦了 OpenAI发布新旗舰模型GPT-4o；字节跳动正式发布豆包大模型｜AIGC周观察第四十三期 GPT-4o 神秘团队首次曝光！负责人是本科学历 AI 大神，还有清华等名校毕业的多位华人奥特曼承认了神秘gpt2！哈佛MIT巡演继续，斯坦福演讲完整版公开 OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨两名少女约架，数百人围观起哄！南加长滩市一奥特莱斯提早关门，警方逮捕两人！硬核观察 #1248 AI 女友涌入 OpenAI 的 GPT 商店 [围观]温哥华机场大批岗位在招人年薪68k~120k IT、公关等选择超多福利眼热！“绝非偶然！”6人先后在奥克兰同一地区神秘失踪！包括一名中国留学生！还有人被跟踪、追赶！接班计划、澄清神秘持股、规划卸任后的未来？巴菲特在股东大会也许说这些 Google 对轰 GPT-4o ！连夜发布十几款新品，喊了 121 次「 AI」，台下观众却快睡着了 OpenAI计划下周一公布新版GPT-4；生成式AI岗位需求暴涨超300%｜AIGC周观察第四十二期