17年了,苹果终于可以通话录音了
继OpenAI、微软、谷歌、Meta相继奔赴“AI高考”,掀起了一波波热浪后,苹果作为最后一个被万众期待的优等生,磨蹭许久,也终于交卷了。
6月11日凌晨,苹果2024年全球开发者大会(WWDC24)如约而至。不出所料,发布会上对AI功能的介绍吸引了最多目光,占据了多达一半的演讲时间。
此前,围绕着苹果与OpenAI的合作落地,苹果会不会借此改造一言难尽的Siri,苹果的AI命名(Apple Intelligence)问题,轮番上阵的预热和讨论,已经在互联网上持续了不短的时间。
最意味深长的部分则是,向来崇尚自有生态的苹果,虽然屡屡传出将允许OpenAI深度介入,但或出于“挣扎”,传言也数次被“辟谣”。发布会让猜测的靴子落地——苹果与OpenAI达成的,几乎是“颗粒度级”的合作。
很难说这样的升级,对于苹果究竟是喜是忧。最直观的是,市场反应惨淡:发布会进行同时,苹果股价便不断下跌,最终每股报收193.12美元,跌1.91%,市值缩水578亿美元至2.96万亿美元。
微博上有用户表示:比起AI能力,发布会最大亮点是——电话通话终于允许录音了。
大会开始,OpenAI创始人山姆·奥特曼(Sam Altman)被安排到了前排就座。这是他自2008年后第二次于公众视野亮相WWDC,似乎也预示着,苹果这次与OpenAI的合作,绝不寻常。
虽然5月以来,OpenAI、微软、谷歌、Meta已密集地上演了一场场“AI春晚”,展示了不少精彩技术;但AI距离普通人的理解,以及真实的场景落地还有不小距离。而苹果看起来,才是最有希望将“AI”拉入凡间的公司:可以用更贴近用户的手机AI功能,通过OS和各种App与生活交融。
这也是苹果在这次发布会上希望传达的调性,库克将苹果的升级概括为个人智能(personal intellegence)。他表示:“我们希望产品强大、易用、符合直觉、能和现有的产品集成、个人化。”
作为预热过场,苹果先用了一个多小时介绍了MR头显VisionPro、iOS、Watch OS、iPad OS、Mac OS乃至于Apple TV的一系列更新。这些“点缀前菜”让观众们听得不胜其烦,直到进度条拉到1小时后,Apple Intelligence才姗姗来迟——把One more thing放在最后,也是苹果的传统艺能。
很难讲苹果的AI升级究竟有多少震撼惊喜。其展示的各类功能,比如人工助手回答问题、修改图片、自动翻译、邮件摘要、润色文章等,在近期AI厂商和国内的AI手机发布上都“似曾相识”。但苹果的整合能力,还是能让人看到AI可能带来的深刻改变。
能显现出苹果最大决心的,无疑是为Siri引用了GPT-4o,让它变得更聪明。
回头看去,诞生于2011年的Siri,着实是起了大早赶了晚集。在ChatGPT横空出世前,Siri十几年来从智能助手,沦为了只会讲笑话和被“调戏”的对象,难用程度已“槽多无口”。
发布会前,外媒曾剧透,苹果对于是否要帮Siri全面接入ChatGPT,有过两极分化的“撕裂”讨论。从结果看,不论是在AI大潮中感到了沉重危机,还是对OpenAI最终认栽,苹果都痛下了决心,让Siri活成它该有的样子。
Siri的升级不可谓不多:苹果为其在主屏上设计了一个大光圈;基于Apple Intelligence能力,Siri具备了丰富的语义和大模型上下文理解能力,能理解用户对“那次”“那时”“那里”等代词的具体描述。在原本的语音交互外,Siri还将增加文字交互功能、跨App执行操作等新玩法。
现在,用户可以用文字、语音与Siri交流,它可以读懂用户说话间的犹豫——当遇到困难问题时,比如用户询问某道复杂菜式的做法时,Siri会提示是否需要唤起ChatGPT,并由后者详细作答。
有了GPT-4o的能力垫底,用户可以用文档、图片、PDF多模态对Siri提问,它也可以基于iPhone内的应用和数据库,做出反应。
比如,一个朋友在短信中提到新地址,用户可以让Siri把地址添加到联系人卡片上。用户也可以直接对Siri说:找到某张图片,并进行修图。或者在填表时,提示“帮我找到驾驶证号码”,并填到表格内。
苹果还在发布会上展示了一个智能示例,对Siri说,“我要去机场接妈妈了”,苹果便会读取妈妈的航班信息、时刻延误、机场交通,接着智能生成好时间表,填入日程中。
为了表达对AI智能化的诚意,苹果着实一股脑拿出了“全家桶”的选择。从通话、语音转文字、智能对话助手、图片处理,到访问第三方应用,苹果几乎对每项核心功能都进行了智能优化。
例如,Apple Intelligence支持智能回复邮件。面对长篇的邮件线程,用户仅需轻触屏幕,就可获取关键信息。iPhone可以对邮件快速总结提要,进行简单回复,同步翻译。
基于苹果内置芯片的强大算力,Apple Intelligence也把生成式模型部署在了iPhone、iPad和Mac本地,让苹果的原生系统多了不少新功能。
例如iPhone始终被诟病的无法通话录音,也终于做出了改变,更新后不仅能够录音,在AI加持下还能够提供文字转录、要点提取等服务。不过,使用通话录音时,考虑到隐私保护,对方将会收到相应通知。
针对无边记等写作应用,Apple Intelligence会帮助用户提供写作优化建议、内容校对等,用户可以从多个版本中挑选,调整文风以适应不同的读者和场合。例如,用户撰写邮件时,写作工具菜单会弹出润色选项,并提供智能回复邮件等功能。
最能让用户发挥个人想象力的功能还包括“智能图像生成”。苹果推出了Genmoji(表情生成)功能,支持用户通过自然语言描述生成表情符号;并进一步推出了Image Playground(图像游乐场),能够让用户自选服装、地点、配饰等关键词,在几秒钟内创造出有趣的图像。
种种Apple Intelligence的功能更新,背后少不了和各家大模型,特别是OpenAI达成的颗粒级合作。如AI从业者“歸藏”所说:“连文字改写都用的ChatGPT,图像看起来用的是DALL-E(OpenAI于2021年发布的图像生成模型)。”
而对于以上的大模型调取,苹果宣布都将完全免费。用户不必创建账户,就可以免费使用ChatGPT,ChatGPT订阅用户也能关联自己的账户,并在苹果设备中接入付费功能。
包含上述功能的“英语试用版”系统将于今年夏天推出,并于今秋落地在iOS 18、iPadOS 18及macOS Sequoia中。但考虑到GPT-4o对大陆的访问限制,本次iPhone和Mac功能更新,可能基本与国行版本无缘。
按照官方说法,苹果还计划于明年推出更多AI功能。但由于以上功能需要A17 Pro芯片支持,用户必须要购买iPhone 15 Pro以上级别产品,才可以使用。
苹果努力捍卫AI铁王座
实际上,这是一场并无多少秘密的发布会。几乎提前一星期,WWDC24的核心信息就被路透殆尽。可以预见的是,苹果发布的诸多功能,将很快引来友商跟随。而在大模型和AIGC时代,作为智能手机市场的“旧王”,苹果将如何捍卫铁王座,也将成为重要命题。
但某种程度上,对自有生态护城河格外重视的苹果,选择对OpenAI敞开大门,已经站在了被动的身位。虽然在大模型横空出世后,苹果一度也躬身入局尝试自研,但结果并不尽如人意。
去年,市场一度传出苹果正在积极自研大模型“Ajax”。今年3月苹果曾公布自研的MM1多态大语言模型,但后来并未对该模型开启公测,也未发布上线时间规划。
同月,在发布新款Macbook Air时,苹果也在宣传文案中首次强调了“AI”。4月,曾有媒体爆料称苹果正在研发一种运行于设备端的大型语言模型,该模型将优先保证响应速度和隐私保护能力。
不过这些,显然都未帮助苹果放大出强劲势能,挽救AI颓势。而友商们,还在不断通过各种合作,跑步入场AI硬件。
早在2023年,华为、小米、vivo、OPPO、荣耀等国产手机厂商,就已开始大模型试水,自研亦或接入外部大模型的努力,频频见于报端。
2023年7月,华为在开发者大会HDC上发布了盘古大模型3.0,官宣新一代智能操作系统HarmonyOS 4已接入了盘古大模型。一个月后,在年度演讲上,雷军透露小米的13亿参数版本自研大模型已经成功在手机端侧跑通。11月,vivo、OPPO先后推出蓝心大模型矩阵(BlueLM)和安第斯大模型(AndesGPT),同期搭载于手机亮相。
兜兜转转,苹果在手机大模型赛道的进度条显然落后了。而这在本已红海厮杀的智能手机市场中,无疑是极大劣势。
有开发者指出,目前还未有一家智能手机企业如苹果这样,如此大范围、细颗粒度地引入了AI大模型的嵌入。随之而来地,频繁端侧推理带来的高耗电问题能否解决?还要等苹果全面开放使用后,才有论断。
值得一提的是,2008年,年仅23岁的山姆·奥特曼曾来WWDC演讲,推广自己的首个创业项目,并于Apple Store上架了好友定位应用Loopt。16年后,凭借苹果与OpenAI的深度合作,山姆不仅再次成为WWDC座上宾,更摇身变为最大的隐形Boss,堪称最大赢家。
在大会结束后,山姆通过个人社交媒体发帖称:“非常开心与苹果达成伙伴关系,并将在今年晚些时候将ChatGPT嵌入他们的设备中。”
对于OpenAI而言,在微软之后又收获了苹果这个重大的合作伙伴,意味着在大模型的浪潮里,又多了一块最重磅级别的压舱石。
不过苹果的合作,也未必代表着甘愿长期与OpenAI绑定,或许也只是在为自研进程争取时间。近期,Siri联合创始人达格·基特劳斯 (Dag Kittlaus) 预测:OpenAI 的合作对苹果来说可能只是短期到中期的关系。
(文中插图如无特别说明,均来自于苹果)
文章经授权转载自市界(ID:ishijie2018)
微信扫码关注该文公众号作者