Bendi新闻
>
GPT-4o炸裂登场,干翻所有语音助手!

GPT-4o炸裂登场,干翻所有语音助手!

7月前


内容来源:笔记侠(ID:Notesman)


责编 | 金木研  排版 | 五月
第  8257  篇深度好文:4539字 | 10 分钟阅读

商业思维


笔记君说:

今天凌晨,OpenAI推出了新款人工智能模型GPT-4o。这一次,它变得更像人了,不仅能用饱含情绪的声音和人聊天,还能看、能听。


我们可以以文本、音频、图像任意组合输入,得到ChatGPT实时文本、音频、图像的任意组合输出。


并且,在交流过程中,ChatGPT不再等待若干秒才响应,而是实时回复,还能被随时打断。


《钢铁侠》里的人工智能助手贾维斯,似乎要成真。


那么,GPT-4o会带来什么样的产业变革?对于普通人来说,它又会为我们带来哪些挑战和机遇?


一、GPT-4o的最大亮点:更通人性


这次GPT-4o最让人震撼的是,它更通人性了。


这主要体现在两个方面,其一,GPT-4o 在多模态上能够融会贯通,反应的速度也有了很大提升,其交互的方式更加接近人类;其二,在 GPT-4o 驱动下的机器人明显更为活泼,也更愿意展现出人类的情绪。


1.AI更像人了


一年前,OpenAi发布了多模态GPT-4。我们可以给它提各种需求,发图片让它帮忙分析,也可以发文件、语音聊天。但是文本、图像、语音之间是有“壁”的。


比如,你想让ChatGPT帮忙解一道数学题,就只能截图或者复制题目,发给ChatGPT。如果想听ChatGPT语音讲解,得先在文本框发完之后,再切到语音。


而通过GPT-4o,我们可以直接使用桌面应用,将ChatGPT打开放在一边,和它聊着天的同时,用“拍摄”功能给它看你电脑桌面的内容,它就可以在对话中为你答疑解惑。


在一则演示中,用户将ChatGPT桌面应用和做题界面同时打开。ChatGPT不直接给出答案,而是以问题引导的方式,有问有答地一步步带用户解了一道几何题。



甚至,我们还可以打开摄像头,让ChatGPT“看”着纸面指导解题。



在模型“GPT-4o”的加持下,ChatGPT还能与用户视频通话:用户打开摄像头,让GPT-4o“看”到当下,并进行互动。


用前置镜头自拍,ChatGPT不仅能识别用户的情绪,如“看起来很开心,甚至可以说是兴奋的”,还能从用户背后的画面判断其身处的环境,如“看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的”。


当有另一个人进入镜头并且做鬼脸的时候,ChatGPT也准确指出了这一“不太寻常”的情况,并加以描述。


用后置镜头,GPT-4o还可以和用户共享视角。例如,在语言学习的过程中,打开摄像头让ChatGPT用某种语言说出物品的名称。


总而言之,GPT-4o驱动下的ChatGPT,不再仅仅是一个什么都会的应用,而是真正进化成了一个“AI助手”。


2.AI也有了情绪


自ChatGPT 上线以来,在相当长的一段时间内,这款聊天机器人都给人留下一种颇为严肃、不苟言笑的感觉。


这极有可能是 OpenAI 出于避免麻烦的考虑而特意如此安排的,ChatGPT 不但回答问题时一本正经、规规矩矩,并且只要有契机就会向用户着重强调“我只是个机器人,我没有感情”。


若用户希望 ChatGPT 能更加“放松”些,就需要给出明确的指令。


然而,由 GPT-4o 驱动的ChatGPT 则明显有了不同。在没有提前给予指令的情况下,ChatGPT 不再刻意去避免表现得像人类,而是相反。


比如,研发负责人Mark Chen在台上向ChatGPT求助:“我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?”



ChatGPT非常体贴地表示:“你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!”


Mark疯狂地大喘气几次,问ChatGPT能给自己什么建议。


ChatGPT惊讶地说道:“放松啊Mark,慢点呼吸,你可不是个吸尘器!”


在这个过程中,ChatGPT和Mark的互动几乎无延迟,随时接梗。也就是说,在 GPT-4o驱动下的 ChatGPT,已不再是一个单纯追求性能的AI工具,而是开始主动给予“情绪价值”。


除此之外,它还能够理解人类在对话中适时打断的习惯,会及时停下来听你说话,并给出相应的回复。


比如,Mark表示自己要再试一遍深呼吸,此时ChatGPT也恰到好处地插进来接话说“慢慢呼气”。


整个过程,自然连贯得仿佛它是个坐在你对面的人类,完全没有AI的机械感和僵硬感!


其实,在ChatGPT走严肃路线的前两年里,不少AI机器人以更活泼、更“通人性”的姿态出现,并俘获了不少用户的心。


比如,Inflection.AI曾推出的机器人Pi,主打的就是“陪伴”,不到一年的时间里就做到百万日活用户。埃隆·马斯克(Elon Musk)的人工智能公司xAI的大模型Grok,则因其毒舌一经上线就吸引不少关注。


以及上一代的AI聊天机器人Siri、天猫精灵、小爱同学等,都有一个俏皮的“人设”


但后来,因技术有限,这些AI工具都被用户称为“人工智障”,弃而远之。


在2024年,人们曾经对Siri们抱有的期待——一个既能当得力助手帮忙做事,又能当赛博玩具聊天嬉笑的AI——终于在GPT-4o身上有了着落。


二、GPT-4o,或将改变3大领域


1.实时视觉助手


在模型“GPT-4o”的加持下,ChatGPT有了视觉能力,你可以直接和GPT4o进行讨论,它能实时理解你看到的东西。



官方发布了一个演示视频,ChatGPT能帮助视障人士“看”世界,在演示视频中:


视障人士问GPT-4o:“湖里有什么?”

GPT-4o回答:“鸭子们正轻轻滑过水面,它们划水相当轻松,并不匆忙,有时会将头伸入水下,可能在寻找食物。”


视障人士又问GPT-4o:“我想知道什么时候有一辆亮着橙色灯的出租车过来,我想让它载我回家。”


GPT-4o回答:“我刚刚发现了一辆,它在路的左侧朝你驶来,准备朝它挥手”。


2.辅助学习


在发布会中,一位研发负责人Barret手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演“在线导师”的角色帮助自己解题,而且只能给提示,不能直接说答案。


接到任务的ChatGPT,甚至开心大叫:“Oops,我好兴奋啊!”


Barret在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。随后,在Barret的要求下,它一步一步说出了解题步骤。


最厉害的是,随着小哥在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。



这简直是学渣和学渣家长的福音,不用再为辅导孩子作业感到崩溃头疼。


3.虚拟陪伴人


GPT-4o 不仅能够根据场景生成多种音调,还带有类人的情绪和情感。同时,GPT-4o的响应速度也变快了,平均延迟仅为 320 毫秒,接近于人类对话的反应时间。


这样的进步,使得GPT-4o的应用场景更广,比如,当一个哄睡师,给任性的人类讲睡前故事。



在演示中,ChatGPT没讲几秒,就被人类粗暴地打断了:多点情绪,故事里来点戏剧性行不?


ChatGPT表示可以,用更起伏的声调、更夸张的语气开始讲起了故事。


结果没几秒,它又被再次打断:不行,再多点情感,给我最大程度的表达。

接下来,我们听到一个仿佛在舞台上表演莎剧的ChatGPT,语气夸张到仿佛是个戏剧演员。


随后,它又多次被打断,并且耐心地按照人类的要求,依次变成了机器人声和唱歌模式。


ChatGPT听到要求自己唱歌时,甚至叹了口气,然后开始亮起了优美的歌喉。


如今,它已不再是工具,更像是你在生活中的好朋友、人生导师,甚至可以是一个虚拟男女朋友。


三、面对AI浪潮,别怕,拥抱它


看到这,你或许会想:


GPT-4o这么强,AI的迭代速度这么快,自己要被取代了怎么办?


面对AI浪潮,一味地逃避或抵抗,改变不了发展的事实。我们要主动适应它,拥抱它,在其中找到我们的机会。


1.发挥人类的协同优势


如今的人工智能,并非通用智能。人类最大的优势,就是通过系统协调它们。


举个例子:


英国在非洲修铁路时,他们要实现智能化调度和物流跟踪。但非洲许多地方的人没有文化,他们怎么办?


在许多关键位置设立岗位,岗位的人无需文化知识,只需在火车过来的时候拿起电话说火车过去,就这样对整个系统进行监测。


这是一个很典型的例子,员工都是新手,但系统很优秀,所以能运转。


现在的人工智能已经是中等水平的员工,理论上讲,它可以做很多事情。



人类的优势在于我们的复杂协同能力。每个人都无法掌握登月所需的所有知识,但合在一起就能登月,这就是复杂协同能力的力量。


2.学会指挥人工智能工作


至今,人工智能并未实现社会化,因此并未形成人工智能社会。然而,未来的发展肯定是向社会化方向进行的。


许多人质疑,人工智能是否会像电影《终结者》中的天网一样,毁灭人类?实际上,天网只是一个数据中心,而且一个超级智能体肯定不会毁灭人类,因为它肯定不如人聪明。


人的核心也不是超级智能,而是所有人在一起形成的社会化智能群体,文化作为智能的蓄水池,理性能帮助我们把智能东西总结成可交流的语言,沉淀到文化里。


因为有了文化,人类社会才特别强大。


有了人工智能,只会让人类智能进步速度继续加快,这意味着我们将有大量的服务机会产生,我们称之为服务规模化。


在过去,烹饪、教育、算账等事情都需要自己去做,现在,这些服务也可以交给别人或专家来做。


工业革命用机器让我们解放了很多,但在这一轮的智能革命中,我们可以用人工智能形成专家级服务,让我们的大脑有时间从事有创造力的工作。


我们最重要的能力或价值,就是学会与AI协作,带动更多的机器工作,我们称之为拥有更高的机器智商。


未来的成功者是机器智商高的人类。我们要当领导人工智能的将军,好好使用这些中等水平的人工智能同事。


四、山姆・奥特曼发文:
GPT-4o将免费开放


在发布结束后,OpenAI CEO山姆・奥特曼久违地发表了一篇博客文章,介绍了推动GPT-4o工作时的心路历程:


在我们今天的发布中,我想强调两件事。


首先,我们使命的一个关键部分是将强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好的模型,没有广告或类似的东西。


当我们创立 OpenAI 时,我们的最初构想是:我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化,看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,我们所有人都会从中受益。


当然,我们是一家企业,会发明很多收费的东西,这将帮助我们向数十亿人提供免费、出色的人工智能服务(希望如此)


其次,新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样,我仍然有点惊讶于它竟然是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。


最初的ChatGPT暗示了语言界面的可能性,而这个新事物(GPT-4o 版本)给人的感觉有本质上的不同 —— 它快速、智能、有趣、自然且能给人带来帮助。


对我来说,与电脑交互从来都不是很自然的事情,事实如此。


而当我们添加(可选)个性化、访问个人信息、让 AI 代替人采取行动等等能力时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。


最后,非常感谢团队为实现这一目标付出了巨大的努力!


*文章为作者独立观点,不代表笔记侠立场。



分享、点赞在看,3连3连

微信扫码关注该文公众号作者

来源:笔记侠

相关新闻

OpenAI深夜炸场,GPT-4o干翻所有语音助手!麦当劳回应使用过期食材:深表歉意;璩静离职后发声丨邦早报OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人?OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了GPT-4o炸裂登场!大模型仍是最大赢家!OpenAI王炸更新GPT-4o,干掉所有语音助手!丝滑如真人引爆全网科幻成真!GPT-4o“炸裂登场”,响应速度堪比真人,关键还免费!网友评论褒贬不一,有人称苹果Siri现在“满头大汗”苹果智能炸裂登场:直接GPT-4o加持,全家桶都上生成式AI,Siri脱胎换骨微软一夜干翻苹果Mac!GPT-4o装进全家桶,微软把全世界PC都AI了苹果AI全家桶登场!Siri彻底重造,整合GPT-4o,20 多个新功能来袭...刚刚,微软掀起生产力革命!GPT-4o 重塑 Windows,奥特曼登场剧透新模型微软一夜干翻苹果!史上最强AI PC诞生,全面整合GPT-4o,能对话,还能教你打游戏iPhone 将加强第三方屏幕电池支持/荣耀 CEO:苹果华为与荣耀在 AI 方向一致/GPT-4o 语音助手功能将推迟发布GPT-4o炸裂发布!能陪作业、教外语?家长惊了:未来如何培养不被AI替代的孩子……OpenAI深夜发布GPT-4o!跟所有公司、所有企业主都有关!GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了星尘智能获数千万美元融资,专注 AI 机器人商业化;OpenAI 部分开放 GPT-4o 语音,今秋扩至所有付费用户丨AI情报局GPT-4o炸裂玩法大赏!选股效率爆炸、创造新物种、暴打广告设计、金牌作业辅导...Claude 3反超GPT-4竞技场登顶!小杯Haiku成开发者新宠:性价比无敌现实版《Her》来了,旗舰AI模型 GPT-4o 免费公布,震撼全场!OpenAI一夜之间革了Siri和同传的命,GPT-4o五大核心能力炸场!深夜重磅!GPT-4o 正式发布:视频语音交互丝滑到吓人,还免费可用看懂网飞版「三体」!Reka Core登场:挑战GPT-4、Claude 3现在,所有人都能免费用GPT-4o了!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。