Bendi新闻
>
GPT-4o的“类人”响应速度刺痛Siri?

GPT-4o的“类人”响应速度刺痛Siri?

6月前

 防走失,电梯直达安全岛报人刘亚东A 





来源:经济观察报

作者:钱玉娟 陈奇杰


GPT-4o可以在短至0.23秒(平均为0.32秒)的时间内响应音频输入,与人类的响应时间相似。





北京时间5月14日凌晨,美国人工智能研究公司OpenAI召开春季发布会,发布全新旗舰模型GPT-4o。该发布会仅在线上进行了不到30分钟,却引起了AI界的广泛关注。

GPT-4o的“o”代表“omni(全能)”。OpenAI称,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,这款模型接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。在英语文本和代码上,GPT-4o的性能和GPT-4 Turbo模型的性能相匹配,在非英语文本上,GPT-4o的性能有显著提高。

GPT-4o的“类人”交互能力尤其受到关注。在发布会现场,OpenAI的工程师对GPT-4o说“我第一次来直播的发布会,有点紧张”,GPT-4o回应他“要不你深呼吸一下”。在工程师略作夸张的大力深呼吸后,GPT-4o很快说道“你这不行,喘得也太大了”。

金山云AI业务负责人于游在GPT-4o发布后也进行了相关测试。他称,GPT-4o“TTS(从文本到语音)效果优化明显”。在他看来,OpenAI真正意义上实现着VPA(虚拟个人助理)的落地。

于游指出,近几年无论是学界还是技术界,“类人”应用在AGI(通用人工智能)领域高速发展,但把多模态、类人语音这些东西完全对齐,放在一个模型当中,如此顺畅地将效果展现出来,OpenAI实现了“一个非常重大的工程化进步”。

GPT-4o的音频响应速度已经达到和人类相似的水平。OpenAI称,GPT-4o可以在短至0.23秒(平均为0.32秒)的时间内响应音频输入,与人类的响应时间相似。而使用语音模式与GPT-3.5对话的平均延迟为2.8秒,与GPT-4对话的平均延迟为5.4秒。

在浙江大学计算机系统结构实验室从事大模型相关研究的陈天楚全程观看了OpenAI的发布会。陈天楚称,GPT-4o弱化了编程等专业能力,尤其突出了语音模态能力,“是首个公开、有实用价值的端到端语音对话模型”。

GPT-4o的“类人”交互能力也让市场关注到OpenAI在端侧,以及和苹果公司合作的想象空间。

身在新加坡的Vibranium Consulting副总裁陈沛一早打开ChatGPT就收到了更新提示,他使用后的感受是“这次最大的优化是响应延迟”。陈沛称,以前使用ChatGPT基本上要1秒到2秒才能生成,如今流畅度进一步增加。

陈沛称,GPT-4o的效果展示让外界看到OpenAI正在推动大模型在手机终端侧的落地,因为“语音输入和生成延迟,一直都不是网页端的刚需”。

这也是近期市场的关注焦点之一。日前,有报道称,苹果公司接近与OpenAI达成协议,将在苹果手机下一代操作系统iOS 18集成ChatGPT。苹果还与谷歌就授权Gemini聊天机器人进行了谈判。

2024年苹果全球开发者大会(WWDC 2024)将于6月10日至6月14日举行,并计划发布iOS18。

英伟达科学家Jim Fan在社交媒体发文猜测,OpenAI与苹果iOS的集成可能有三个层次:一是苹果放弃语音助手Siri,OpenAI为iOS提炼出更小型、纯设备上的GPT-4o,并可选择付费升级以使用云;二是设备将拥有把相机或屏幕传输到模型中的功能,可以对神经音频或视频编解码器进行芯片级支持;三是与iOS系统级操作API(应用程序编程接口)和智能家居API集成。

相关方均未就上述消息予以公开回应。但在发布会上,OpenAI称,苹果电脑用户将迎来一款为macOS系统设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGPT提问。

于游称,OpenAI去年发布GPT-4后,其付费的高性能版本就已经展现出模型对图文、语音、视觉等全方位的实时推理等相关能力。现在OpenAI通过GPT-4o一个大模型将图文、语音、视觉交互进行了集中展示,还为未来应用层打开了想象空间,机器完全可以通过识别语音和表情实现与人的交互

“VPA的载体会发生变化。”于游说,OpenAI试图撬动一种新的交互逻辑,伴随人机智能交互方式的改变,不论是硬件端还是软件端,都极有可能产生一个新的载体,去实现AGI系统响应人类强人工智能的需求。





微信扫码关注该文公众号作者

来源:报人刘亚东

相关新闻

GPT-4o“炸裂登场”,响应速度堪比真人,关键还免费!网友评论褒贬不一,有人称苹果Siri现在“满头大汗”自带热搜体制的职场类视频,为什么让人“上头”?三位OpenAI前员工联手创办,李飞飞等大佬投资,“机器人界的GPT”要被亚马逊收购了?每秒执行超40万亿次运算!微软推出内置GPT-4o的全新AI PC“硬刚”,苹果将会如何应对?PC市场是否将迎来换机潮?“AI届汪峰”谷歌的Astra是强势反击GPT-4o,还是又被抢了风头?GPT-4o发布,产品经理如何应对即将到来的“钢铁侠贾维斯助理”时代?到底什么叫一个“情感成熟”的人?特朗普“英雄式”遇刺,竟是“自己人”干的?一个更混乱的世界即将到来你是一个容易对什么事都「无所谓」的人吗?[预约] 谁在吃凯特王妃的“人血馒头”?30岁得癌,反而很开心?“太懂事”的人,都是在透支自己GPT-4o竟是「道德专家」?解答50道难题,比纽约大学教授更受欢迎为什么越优秀的人,越「不快乐」?寒门能不能学医?什么样的人“配”学医?学医之后只能当医生吗?看完这三千字就明白了[干货] OpenAI 最新产品GPT-4o,“o”代表什么?外媒如何报道GPT-4o,有没有“炸裂”?直播预告 | 顾少强:做个“正常”的心理人,行不行?北半马何杰夺冠争议!马拉松中的“兔子”都是什么人?欠银行4亿还不上!66岁豪宅大佬破产,他是金庸“最希望成功”的人?害,如何解救被低质量睡眠“困”住的年轻人?刚分手就有新恋情,为什么有的人可以「无缝衔接」?24Fall牛剑G5拒信理由大盘点,谁的“借口”最伤人?谁是中国提出守住缅“三条底线”的第一责任人?财经早参丨国乒女团实现五连冠;央行发文,事关货币政策;“阳”的人又多了?张文宏发声;5A级景区项目故障1死60伤
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。