Bendi新闻
>
GPT-4o发布!AI实时视频通话丝滑如人类,Plus功能免费使用

GPT-4o发布!AI实时视频通话丝滑如人类,Plus功能免费使用

6月前

作者: 沈木

转载: 量子位


直播预告


正文


不开玩笑,电影《她》真的来了。


OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。


现场直播的效果更是炸裂:


它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。



GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。


它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。



这还是一份给所有人的大礼,GPT4-o与ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……


将对所有用户免费开放!



(新语音模式几周内先对Plus用户开放)


在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。


在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一,im-also-a-good-gpt2-chatbot。


无论从网友上手体验还是竞技场排位来看,都是高于GPT-4-Turbo级别的模型了,ELO分数一骑绝尘。



而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足是原来的5倍!



追直播的网友已经在设想可能的应用,可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。



鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了,有大胆想法的朋友,可以把你们的想法发在评论区了。


01

总裁Brockman在线演示


知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸,狠狠打脸。


谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果,OpenAI现场全都直播演示了。


比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。



发布会直播之外,总裁哥Brockman还发布了额外的5分钟详细演示。


而且是让两个ChatGPT互相对话,最后还唱起来了,戏剧感直接拉满。


这两个ChatGPT,一个是旧版APP,只知道对话,另一个则是新版网页,具备视觉等新能力。(我们不妨取Old和New的首字母,分别叫TA们小O和小N)



Brockman首先向小O介绍了大致情况,告诉她要和一个拥有视觉能力的AI对话,她表示很酷并欣然接受。


接着,Brockman让她稍作休息,并向小N也介绍情况,还顺带展示了小N的视觉能力。


只见打完招呼后,小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事,小N也感到很有趣。



接下来就是小O和小N相互对白的时间了,TA们依然是从Brockman的衣着开始聊起,小O不断提出新的问题,小N都一一解答。


接着,他们又谈论了房间的风格、布置和光线,甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。



如果你看了这段视频就会发现,画面中出现了一个女人在Brockman身后做了些恶搞的手势。


这可不是乱入,是Brockman和女人串通好,专门给小N设计的一道“考题”。



就在小O和小N聊的正开心的时候,Brockman选择加入,直接问有没有看到什么不正常的地方。


结果是小N直接识破了Brockman的小伎俩,直接复述出了女人在他身后做小动作的场景,小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。


Brockman把这句话当成了夸赞,并对小O表示了感谢,还愉快地加入了TA们的对话。


之后是最后也是最精彩的部分,在Brockman的指挥下,小O和小N根据刚才聊天的内容,直接开启了对唱模式。


只过了简单几轮,衔接地就十分密切,而且旋律悠扬,音色也是和真人毫无二致。



最后视频以Brockman唱出的一句Thank you结束,在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。



02

端到端训练,

一个神经网络搞定语音文本图像


正如奥特曼在发布会前所说,GPT-4o让人感觉像魔法一样,那么它是如何做到的呢?


非常抱歉,这次非但没有论文,连技术报告也不发了,只在官网Blog里有一段简短的说明。


在GPT-4o之前,ChatGPT语音模式由三个独立模型组成,语音转文本→GPT3.5/GPT-4→文本转语音。


我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。‍‍



这样一来,整个系统的延迟足足有2.8秒(GPT-3.5)和5.4秒(GPT-4),而且丢失了大量的信息,它无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。



GPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。


在语音翻译任务上,强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。



在视觉理解上,也再次反超Gemini 1.0 Ultra与对家Claude Opus



虽然技术方面这次透露的消息就这么多了,不过也有学者评价。


一个成功的演示相当于1000篇论文。



03

One More Thing


除了OpenAI带来的精彩内容之外,也别忘了北京时间5月15日凌晨,谷歌将召开I/O大会。


到时量子位将继续第一时间带来最新消息。


另外根据网友推测,GPT-4o这么强,全都免费开放了,这是劝大家不续订ChatGPT Plus了的意思吗?


那肯定不是啊~



鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把,明天OpenAI还有新活也说不定呢?


直播回放
https://www.youtube.com/watch?v=DQacCB9tDaw

参考链接:
[1]https://openai.com/index/hello-gpt-4o/


中国学生美本录取大数据:


相关阅读:

斯坦福2022AI指数报告出炉—以最全面的角度解读人工智能行业!

宾大推出人工智能专业!8所顶级学府实力对决,谁是真正的AI王者?

MIT正式宣布人工智能独立设系!AI与电子工程、计算机科学系将三分天下?



转载:量子位,本文版权归属作者所有。



喜欢本文?欢迎关注/置顶/点赞/加入留学家长公益交流社群:


微信扫码关注该文公众号作者

来源:视角学社

相关新闻

GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了Copilot功能大礼包!微软让个人AI助手进入团队,GPT-4o现已助力Azure,浏览器视频实时翻译深夜重磅!GPT-4o 正式发布:视频语音交互丝滑到吓人,还免费可用OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代桌面版ChatGPT登台演讲,能视频通话还会实时读屏,GPT-4o最新demo再次惊艳:“能力还是被低估了”OpenAI王炸更新GPT-4o,干掉所有语音助手!丝滑如真人引爆全网科幻成真!OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人?OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑字节跳动豆包大模型支持实时语音通话;阿里发布Qwen2-Math:数学推理全球第一,超越GPT-4o丨AIGC日报手机上能跑的 GPT-4V!面壁发布端侧最强多模态小钢炮 2.6,实时视频理解首次上端丝滑如真人,GPT-4o开启“她 ”时代,老师、同传要失业?全能模型GPT-4o惊艳发布!AI可提供情绪价值,还结婚么?已婚男子「出轨」AI女友,无法自拔!GPT-4o发布在即,年入十亿美金产业爆发谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破SoraOpenAI再压谷歌一头,最强模型GPT-4o免费发布,语言对话媲美人类反应OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军现实版《Her》来了,旗舰AI模型 GPT-4o 免费公布,震撼全场!Google 发布「AI 全家桶」反击 GPT-4o !搜索引擎罕见大更新, 121 句「AI 」道尽焦虑OpenAI 突然发布 GPT-4o mini !更快更便宜,人人免费可用,GPT-3.5 成为历史iPhone 将加强第三方屏幕电池支持/荣耀 CEO:苹果华为与荣耀在 AI 方向一致/GPT-4o 语音助手功能将推迟发布Google 对轰 GPT-4o !连夜发布十几款新品,喊了 121 次「 AI」 ,台下观众却快睡着了GPT-4o炸裂发布!能陪作业、教外语?家长惊了:未来如何培养不被AI替代的孩子……
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。