Bendi新闻
>
神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了

神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了

1月前
整理 | 华卫

昨晚,一个突然出现在 LMSys 基准测试网站的神秘模型,在大模型领域掀起了巨大波澜。用过的人都在夸,刚发布服务器就被挤爆,奥特曼也迅速出现在吃瓜现场...

而这一切的主角,就是 gpt2-chatbot。没有出处,也没有介绍,在没有官方文件的情况下,一夜间“惊艳”所有人的视线。

有人认为 gpt2-chatbot 可能是 OpenAI 的下一个模型,还有人说它是 GPT-4.5 或 5 的 beta 测试,甚至有评价称这可能是对 GPT 架构的根本升级。尽管该模型的系统提示表明它来自 OpenAI,但 gpt2-chatbot 却拒绝引用 OpenAI。

有意思的是,在众人猜测 gpt2-chatbot 身份的时刻,Open AI 的 CEO Sam Altma 发帖表达了对 gpt2-chatbot 的喜爱:“我确实对它情有独钟。”

对此,有网友评价说:“如果不是 ChatGPT 的新版本,OpenAI 就有麻烦了!” 也有网友表示,“希望它不是 GPT-5,这个模型很难完成 Opus 擅长的推理任务。”

以下是部分用户对 gpt2-chatbot 的测试重点总结:

  • gpt2-chatbot 一直声称“基于 GPT-4”并具有“v2”个性,并称自己为 ChatGPT。

  • 其呈现自己的方式,通常与其他在 OpenAI 数据集上训练的模型的幻觉回复不同。

  • 它似乎使用了 OpenAI 的 tiktoken 分词器,对 OpenAI 使用的特殊 token 有反应,且对 Claude/Llama/Gemini 使用的特殊 token 没有反应。

  • 当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。

  • 它表现出特定于 OpenAI 的提示注入漏洞,且从未声称属于 OpenAI 以外的任何其他实体组织。

  • 对于相同的提示,gpt2-chatbot 始终提供与 Anthropic、Meta、Mistral、Google 等模型不同的输出。

效果领先多个模型

gpt2-chatbot 一经发布,众多用户都涌入这一模型测试其在各领域的表现。从公开平台的反馈来看,该模型在多方面的能力和实际效果都赶上甚至超过许多其他的前沿模型。

例如,gpt2-chatbot 可以在 PyOpenGL 中一次性生成旋转 3D 立方体, 而 GPT-4、Gemini-1.5 和 Claude-3 需要尝试三次才可以。

在解决兄弟姐妹之谜时,gpt2-chatbot 得出和 GPT-4 Turbo 相同的结果。

除这两个案例外,还有许多网友抛出了 gpt2-chatbot 在解决各类问题时的优秀能力。

网友 @Andrew Gao:gpt2-chatbot 一口气正确解决了 IMO(数学奥林匹克)问题。

网友 @murat :该模型可以解决一些 GPT-4 做不到的事情,如 A+B-1 的数学问题,打破了非常强的学习惯例。

网友 @Phil:用 gpt2-chatbot 制作 ASCII 艺术的效果领先于任何其他模型。

网友 @murat :gpt2-chatbot 第一次尝试就解决了在 Claude Opus 、GPT4 和 llama3-70b 模型上失败的 TypeScript 编写问题,并且没有错误。

不仅在复杂的代码操作任务以及用于测试新模型的所有编码提示上,gpt2-chatbot 比 Claude Opus 以及最新的 GPT-4 更好。当被要求规划 LLM 代理的计划以帮助用户预订晚餐时,gpt2-chatbot 也能给出出色的响应。

模型的神秘来源

“在我看来,这个神秘模型很可能是 GPT-4.5 或 GPT-5,或者实际上是一个真正的 GPT-2 模型,由 OpenAI 或 LMSYS 提供。总的来说,它输出的内容质量,特别是格式、结构和整体理解,绝对是一流的。对我来说,这感觉就像是从 GPT-3.5 到 GPT-4 的一步,但以 GPT-4 为起点。”

关于 gpt2-chatbot 的公开网页介绍(非官方)

当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。而且,该模型使用 OpenAI 的 token 分词器,对 OpenAI 使用的特殊 token 有反应。

一种猜测认为,gpt2-chatbot 实际上是基于 GPT-2 架构的,其表现出的能力大大超出了任何以前已知的 GPT-2 模型。

另一种可能性是,它实际上是一个 GPT-2 模型。最近(2024 年 4 月 7 日)Meta/FAIR Labs 和 Mohamed bin Zayed AI University of AI (MBZUAI) 的一篇题为《语言模型物理学:第 3.3 部分,知识容量缩放定律》的文章深入研究了 GPT-2 架构的细节,并确定:“ GPT-2 架构在知识存储方面与 LLaMA/Mistral 架构相当甚至超过,尤其是在较短的训练持续时间内。”

至于该模型被认为是 GPT-4 的强烈说法,可以通过主要利用 GPT-4 生成的数据集来解释。然而,gpt2-chatbot 确实有一个与 GPT-4 模型不同的速率限制,用于直接聊天:

虽然尚未比较对总速率限制与用户特定速率限制的完整限制,但在每日用户限制以及其他一些总服务限制上比 GPT-4 模型更具限制性。这可能意味着,该模型在计算方面的成本更高,并且提供计算的人更喜欢用户使用 Arena (Battle) 模式来生成基准测试。

如果 LMSYS 是 gpt2-chatbot 的模型创建者,那么该文章的一些结果的应用就可以利用通过 LMSYS 生成的数据集进行训练等。

如果你想试用或者帮助解开 gpt2-chatbot 的身份谜题,现在可以进入到 LMSys 网站(https://chat.lmsys.org/)并选择 gpt2-chatbot。每个用户每天可以测试 8 条消息的直接聊天,之后可以切换到“竞技”模式尝试匹配到该模型选项。另外,尝试时至少需要对所有提示展开三次验证,以获得达到该模型平均能力的结果。

参考链接:

https://rentry.co/GPT2

https://twitter.com/itsandrewgao/status/1785013026636357942

 内容推荐

探索智能科技的新边疆,《2024 年第 1 季度中国大模型季度监测报告》正式发布!OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来,正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中,AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号,回复「季度报告」领取。

 活动推荐

叮咚!微软邀请你来参会啦!

5 月 17 日,Azure OpenAI Day 将落地成都!来自微软的数位技术大咖将带你一站式了解 Sora、GPT-4 Vision 及 Azure OpenAI 等热门议题的最新进展!席位有限,速来抢位!

扫码或点击阅读原文,立即报名~

26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要


苹果与 OpenAI 重启谈判,Siri 或引入 ChatGPT,网友:国行用文心一言?


大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?


曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报

你也「在看」吗?👇

微信扫码关注该文公众号作者

来源:AI前线

相关新闻

热度不输《甄嬛传》的古早国民剧,如今人设“大翻车”?网友:当年的真心竟然错付了中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了2024傅盛开年大课:企业“私有化大模型的时代”来了?大模型会自己“盗图”?这些坑OpenAI已经踩过了奥特曼挂帅新团队,OpenAI新一代大模型开训,前任高管却「投敌」了微软秘密开发首个千亿大模型,竟由OpenAI对手操刀!网友:你不要奥特曼了?张韶涵“星河美乳”呼之欲出,胸比头还大2倍?网友直呼:顶不住了!雷军忽悠了所有人,行业大佬们都懵了,“车圈恩怨”和解了?性能超越 GPT-4 Turbo!「商汤日日新」大升级,国产大模型超市开张了“大盘在涨,我却爆亏?”见证巨变!A股极端两级分化!微盘跌,大盘涨!股民:是一个时代的落幕。要擦亮眼睛,重新看布局了!大利好,拜登发声!美股三大指数创历史新高,黄金、白银强势,美元跳水!两大“散户抱团股”却一度猛跌超30%,发生了什么?周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报吵翻天!全网群嘲澳洲大学“充多了”!2025QS世界大学排名公开!墨大、悉大力压清华,世界TOP20?网友:表情包来了...谷歌AI通过图灵测试,大模型医生来了?GPT-4竟诊断出难倒17个医生的怪病“杀人大楼”关闭3年重开!安全防护再加码,防护网密布“大松果”!网友:这下套上包装袋了“大厂梦怎么圆?”网友神回复,笑晕了!200亿的“姨妈巾高铁站”火了!网友:流量再大也能兜住俄媒曝乌克兰逃兵“呈指数增加”:大多数人已经对战争丧失了信心谷歌、OpenAI 都搞起了AI “造人”?创始团队:开源AI基因编辑器只是冰山一角拆迁不给钱、不给房,广州「房票安置」来了?冯仑:满足两大条件才能流通lululemon高管详解“中美”两大关键市场:做对了什么?又做错了什么?OpenAI出手后,GPT-4真的不懒了?网友不买账:只靠打补丁恐怕无济于事!知名女星被曝“造假”,妈妈们却狠狠共情了?网友:原来当妈后大家都一样“月薪3W,我却抑郁了”:创伤,如何废掉一个人?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。