GPT-4o 引爆小红书打卡潮,推动 Vision Pro想象,刷新微软、Adobe 产品线
编辑丨陈彩娴
GPT-4o 发布以后,虽然业内一片嘘声,小红书上却掀起了一股打卡热潮。社交媒体小红书上,多个贴文以及下面的评论区争相考验 GPT-4o 的“眼力”。
Cr. 阿遥(小红书ID: 958377307)
左右滑动查看更多
相比 Gemini 等一众多模态 AI 模型,GPT-4o 的输出难以置信的准确,超半数情况下 zero-shot 直接命中,附线索提示的 few-shot 则基本上全部命中。
而其余国外厂商的多模态大模型错误率较高。
值得注意的是,GPT-4o 的识别结果也并不稳定,且较容易受到提示语的影响。特别是使用中文进行提问,GPT-4o 倾向于先猜测东南亚地点,经提示以后才能命中答案。
GPT-4o 一次性命中,Gemini 1.5 Pro 识别失败,GPT-4o 中文 few-shot 命中(Cr. 小红书“鼠拨土和她的CEO朋友们”)
左右滑动查看更多
相比之下,小红书博主 206265 使用英语对在美国拍摄的7张照片进行提问,GPT-4o 的所有回答全部正确。
这些案例表明,只要某一地点在网上有一定程度的曝光,GPT-4o 基本上都能够从成千上万个可能选项中快速识别出目标。
迄今为止,在多模态大模型中,这种优秀的街景识别能力独一无二。GPT-4o 的性能表现甚至在一定程度上超越了 Google Lens 这一结合了搜索和识图的在线引擎;而谷歌相比 OpenAI,无疑已经在地图和图像领域浸淫多年。
我们有理由认为,OpenAI 使用了海量视觉数据对 GPT-4o 进行训练,这是规模法则(scaling law)智能涌现(emergent intelligence)的又一案例。
那么,拥有更多海量地图和图像数据的谷歌可否后来居上?紧随 OpenAI 发布的 Gemini 和 Project Astra 是否有发布会上所展示的、不逊于 GPT-4o 的视觉能力?
毫无疑问的是,有了五感中“两感”和“脑子”的 GPT-4o 能够帮助视障、听障甚至行动障碍人群,将我们的感(sensing)和知(perceiving)提前一步进行处理。
OpenAI & Be My Eyes:让手机成为视障人群的眼睛
没错,Apple Vision Pro 智能眼镜。
结合 GPT-4o,Apple Vision Pro 尤其在户外的应用场景大幅拓宽。原本相对固定的组件位置活动起来了,原本相对独立的交互模式结合起来了,原本相对尴尬的 XR 终于有用武之地了。
“这瓜保熟吗?”GPTs,让你拥有独一无二的鉴瓜技能
这当然不仅是一个玩笑,这代表在加入多模态以后,GPT-4o 以及未来与之类似的大模型已有超越部分人类的感知、决策能力——不仅仅是速度上,也不仅仅是“鉴瓜”。
从这一角度上来说,XR(Mixed Reality)这一十年前就提出的设想或许才刚刚度过漫长的“冰河世纪”,即将获得更大的天地。
另一方面,这仅仅是五感中的“视”、“听”。如果再加上第三重要的“触”,是否就指向在今年爆火的“具身智能”了呢?
AI Native 软硬件
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者