内容导读
5月13日到6月14日是2024年最为重磅的“AI月”,这两天接连的OpenAI春季发布会和Google I/O仅仅是开始,一个月内我们会不断见证硅谷AI巨头的炫技和Battle!
其中最重要的时间节点包括:5月21日微软2024 Build年度开发者大会,5月22日英伟达发布一季报,以及6月10日-14日的苹果全球开发者大会(WWDC)。
苹果全球营销高级副总裁Greg Joswiak在X上表示:“请在日历标记上WWDC24吧。这场活动将绝对震撼!”这里的彩蛋是,Joswiak特意把“Absolutely Incredible(绝对不可思议)”的首字母拼成大写,合起来就是当下最火的科技概念——AI。
看起来苹果在本轮AI布局上并不算领先,但是本文仔细研究了十几篇苹果的论文,结论是苹果的AI布局会带来iPhone的全面变革!可以期待,本次WWDC上我们将看到一些重大的AI发布!
本文由智能小巨人科技编译,Enjoy~
内容目录
01 本届硅谷“AI月”巨头炫技不断,苹果AI我们可以期待什么?
02 适合Siri的模型:更小,更高效,还是离线的
03 真正的好Siri:更懂你还不啰嗦
04 将AI用于健康领域与变革创意,还能让Siri自行使用手机
05 AI竞赛中活跃的苹果,iPhone全面变革可期
将来,Siri 可能会为您理解和使用您的手机。 图片:苹果5月13日到6月14日是2024年最为重磅的硅谷“AI月”,这两天接连的OpenAI春季发布会和Google I/O仅仅是开始,一个月内我们会不断见证硅谷AI巨头的炫技和Battle!5月21日,微软将举办2024 Build年度开发者大会。根据官方公布的信息,两场分论坛将分别聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。5月22日,英伟达将公布一季报。业内传闻,手机芯片大厂联发科正携手AI芯片大厂英伟达(NVIDIA)开发基于Arm架构的AI PC处理器,预计将在今年三季度完成设计定案(tape out),第四季度进入验证,售价或将高达300美元。6月10日至6月14日,苹果将举行年度全球开发者大会(WWDC)。苹果全球营销高级副总裁Greg Joswiak在X上表示:“请在日历标记上WWDC24吧。这场活动将绝对震撼!”这里的彩蛋是,Joswiak特意把“Absolutely Incredible(绝对不可思议)”的首字母拼成大写,合起来就是当下最火的科技概念——AI。人们很容易认为苹果在人工智能领域起步晚了。自2022年底,当ChatGPT席卷全球以来,苹果的大多数竞争对手都争先恐后地迎头赶上。尽管苹果肯定谈论过人工智能,甚至发布了一些考虑到人工智能的产品,但它似乎只是在尝试性地涉足,而不是全力以赴地投入。但在过去几个月里,谣言和报告表明,苹果实际上只是在等待时机,准备采取行动。最近几周有报道称,苹果正在与OpenAI和谷歌讨论为其一些AI功能提供动力,公司还在开发自己的模型,称为Ajax。如果你浏览苹果发布的人工智能研究,就可以开始了解苹果对人工智能的方法可能如何实现。当然,基于研究论文做出产品假设是一门非常不精确的科学——从研究到商店货架的道路是曲折且充满坑坑洼洼的。但至少你可以了解公司在思考什么——以及当苹果在6月的年度开发者大会WWDC上开始谈论它们的人工智能功能时,这些功能可能会如何运作。更小,更高效,还是离线的
或许你和我都希望得到更好的Siri。看起来,更好的Siri真的要来了!在苹果的许多研究中(以及在科技行业、全世界、以及任何地方的许多地方)都有一个假设,即大型语言模型将立竿见影使虚拟助手变得更好、更智能。对苹果来说,要实现更好的Siri意味着要让这些模型尽可能快出炉——并确保它们无处不在。据彭博社最近报道,在iOS 18中,苹果计划让其所有AI功能都在设备上的完全离线模型上运行。即使你拥有一个数据中心网络和数千个最先进的GPU,构建一个好的多用途模型都很困难——仅使用智能手机内部的组件来做这件事更是难上加难。因此,苹果必须发挥创意。在一篇名为“LLM in a flash:Efficient Large Language Model Inference with Limited Memory”(https://arxiv.org/pdf/2312.11514)的论文中(所有这些论文的标题都非常枯燥,但我保证内容非常有趣!),研究人员设计了一个系统,将通常存储在设备RAM上的模型数据存储在SSD上。研究人员写道:“我们已经证明了在SSD上运行比可用DRAM大两倍的LLM的能力”,“与CPU中的传统加载方法相比,推理速度提高了4-5倍,GPU中提高了20-25倍。”通过利用设备上最便宜和最可用的存储,他们发现模型可以更快速、更高效地运行。苹果的研究人员还创建了一个名为EELBERT(https://arxiv.org/pdf/2310.20144)的系统,可以将LLM压缩到更小的尺寸,而不会显著降低其性能。他们对谷歌的Bert模型的压缩版本只有15倍小——仅1.2兆字节——并且只出现了4%的质量下降。不过,这确实带来了一些延迟上的权衡。总的来说,苹果正在努力解决模型世界中的核心紧张关系:模型越大,它就越好,越有用,但它也会变得越笨拙、越耗电、越慢。像许多其他公司一样,苹果正在试图在所有这些事情之间找到正确的平衡,同时也在寻找一种方法来实现这一切。03
真正的好Siri
更懂你还不啰嗦
当我们谈论AI产品时,我们谈论的很多都是虚拟助手——那些知道事情、能提醒我们事情、能回答问题并代表我们完成任务的助手。因此,当我们谈论苹果的人工智能研究时,归结为一个简单的问题并不令人惊讶:如果Siri真的非常好会怎样?一群苹果研究人员一直在研究一种使用Siri(https://arxiv.org/pdf/2403.14438)的方法,而无需使用唤醒词;设备可能不需要等待“嘿Siri”或“Siri”,而是能够简单地判断你是否在和它说话。研究人员确实承认,“这个问题比语音触发检测更具挑战性”,“因为没有一个引导触发短语来标记语音命令的开始。”这可能就是为什么另一组研究人员开发了一个更准确地检测唤醒词的系统(https://arxiv.org/pdf/2309.16036)。另一篇论文(https://arxiv.org/pdf/2310.07062)训练了一个模型,以更好地理解通常不被助手很好地理解的罕见词汇。在这两种情况下,大型语言模型(LLM)的优势在于理论上它可以更快地处理更多的信息。例如,在唤醒词论文中,研究人员发现,不是试图丢弃所有不必要的声音,而是将所有声音都输入模型并让它处理哪些重要哪些不重要,唤醒词的可靠性大大提高。一旦Siri听到了你的声音,苹果正在做很多工作以确保它更好地理解和沟通。在一篇论文中(https://arxiv.org/pdf/2310.16990),它开发了一个名为STEER(代表Semantic Turn Extension-Expansion Recognition,所以我们称之为STEER)的系统,旨在通过尝试弄清楚你何时在问一个后续问题,何时在问一个新问题,来改善你与助手之间的来回沟通。在另一篇论文中,它使用LLMs来更好地理解“模糊查询”,不管你怎么说,都要弄清楚你的意图。“在不确定的情况下,”他们写道,“智能对话代理可能需要主动采取行动,通过主动提出好问题来减少它们的不确定性,从而更有效地解决问题。”另一篇论文(https://machinelearning.apple.com/research/latent-language-diffusion-model)也旨在帮助解决这个问题:研究人员使用LLMs使助手在生成答案时不那么啰嗦,更容易理解。每当苹果公开谈论人工智能时,它往往更少关注原始技术能力,而更多关注人工智能实际上能为你做的日常事务。因此,尽管 Siri 备受关注——特别是当苹果希望与Humane AI Pin、Rabbit R1以及谷歌不断将Gemini整合到所有Android设备中的竞争中——苹果似乎也看到了AI有用的许多其他方式。苹果关注的一个明显领域是健康:理论上,大型语言模型(LLM)可以帮助筛选由你的各种设备收集的大量生物识别数据,并帮助你理解所有这些数据。因此,苹果一直在研究如何收集和整理你的所有运动数据,如何使用步态识别和你耳机来识别你,以及如何跟踪和理解你的心率数据。苹果还创建并发布了“可用的最大多设备多地点基于传感器的人类活动数据集”,该数据集是在收集了50名参与者的多个身体传感器数据后形成的。在一篇论文中,研究人员采访了一群动画师、设计师和工程师,并构建了一个名为Keyframer的系统(https://arxiv.org/pdf/2402.06071),该系统“使用户能够迭代构建和完善生成的设计。”你不是输入一个提示语然后得到一个图像,再输入另一个提示语得到另一个图像,而是从一个提示语开始,然后获得一个工具包来调整和完善图像的各个部分,以符合你的喜好。你可以想象这种来回的创作过程出现在任何地方,从Memoji创建器到苹果的一些更专业的艺术工具。在另一篇论文中(https://arxiv.org/pdf/2309.17102),苹果描述了一种名为MGIE的工具,它让你只需描述你想要进行的编辑就可以编辑图像。(“让天空更蓝”,“让我的脸看起来不那么奇怪”,“添加一些石头”,诸如此类。)研究人员写道:“MGIE不是提供简短但含糊的指导,而是推导出明确的视觉效果意图,并导致合理的图像编辑。”它的初步实验并不完美,但给人留下了深刻印象。我们甚至可能在Apple Music中看到一些AI的应用:在一篇名为“资源受限的立体声唱歌语音消除”的论文中(https://arxiv.org/pdf/2401.12068),研究人员探索了将歌曲中的声音与乐器分开的方法——如果苹果想给人们提供工具,比如说,像在TikTok或Instagram上那样混音歌曲,这可能会派上用场。随着时间的流逝,我敢打赌这正是你会看到苹果倾向于投入的领域,特别是在iOS上。苹果会将其中一些功能构建到自己的应用程序中;一些会作为API提供给第三方开发者。(最近的“日志建议”功能可能是如何工作的一个很好的指南。)苹果一直大力宣传其硬件能力,特别是与普通Android设备相比;将所有这些马力与设备上、注重隐私的AI相结合可能是一个很大的差异化因素。但如果你想看到苹果正在进行的最大的、最雄心勃勃的人工智能项目,你需要了解Ferret(https://arxiv.org/pdf/2310.07704v1)。Ferret是一个多模态的大型语言模型,它可以接收指令,专注于你圈出或以其他方式选择的特定内容,并理解其周围的世界。它旨在用于现在常见的AI用例,即向设备询问你周围的世界,但它也可能能够理解你的屏幕上的内容。在Ferret的论文中,研究人员表明,它可以帮助您浏览应用程序、回答有关App Store评级的问题、描述您正在查看的内容等等。这对于无障碍性具有非常激动人心的含义,也可能完全改变您使用手机的方式 - 以及您的Vision Pro和/或智能眼镜。我们在这里有点超前了,但你可以想象这将如何与苹果正在做的其他事情一起工作。一个能理解你想要什么的Siri,加上一个能够看到并理解你显示器上发生的一切的设备,是一部可以自己使用的智能手机。苹果不需要与一切深度集成;它只需自动运行应用程序并轻敲正确的按钮。再次强调,所有这些都只是研究,如果从今年春天开始这一切都能很好地工作,那将是一个真正的前所未有的技术成就。(我的意思是,你试过聊天机器人——你知道它们不是很好。)但我敢打赌,我们会在WWDC上看到一些重大的AI公告。苹果首席执行官蒂姆·库克(Tim Cook)甚至在2月份也暗示了这一点,并在本次的收益电话会议上基本上做出了承诺。有两件事非常清楚:苹果在AI竞赛中非常活跃,这可能导致iPhone的全面改革。嘿,你甚至可能开始愿意使用Siri!那将是一个相当大的成就。来源:王铮Silvia(ID:silviawz2023)
原文:The Verge
原文链接:
https://www.theverge.com/2024/5/5/24147995/apple-siri-ai-research-chatbot-creativity