技术的进步正在酝酿一场针对 AI 硬件的革命:从 高开低走的 AI Pin,到口碑丰收的 Ray-Ban Meta 智能眼镜和即将发货的 Rabbit R1,这些新闻也正在占据我们的眼球。正在研发 AI耳机的李楠(怒喵科技 CEO,前魅族副总裁)参与播客《脑放电波》的录制,这次对谈有四个部分,涵盖对于AI 硬件的 20 个重要判断。以下为文章目录及对应的关键判断,可以选择感兴趣的部分快速查看。01 盘点热门案例,哪些硬件难以成功?「少就是多」的取胜之道?原生视觉的大模型出现会大大增强AI硬件关于拍摄的能力02 AI 硬件完整分析:加速算力革命、可穿戴作为计算中心的未来、商业格局
基于加速算力设计的 AI 硬件,不是在今天的手机和电脑上增加「AI 算力」的补丁,我们正在从「计算机农业社会」进化到「AI游牧社会」下一代个人计算中心的产品形态暂时不明确,因为技术能力在快速变化,眼镜、项链、耳机都是可选方案AI 硬件,一定会解决原来解决不了的问题:不需要揣在兜里的传感器、以及作为个人助理帮你生活工作娱乐(AIGC 是一个误导人的概念,更重要的是会推理和执行的AI)AI 硬件大概率也是不会强依赖显示的:GUI (图形界面)因为效率比不上直接执行代码,注定会死掉算力提升和效率工程(flow/pipeline engineering)是比摩尔定律更恐怖的存在AI 硬件的正确范式一旦被明确,三年渗透超过 50%在 AI 硬件作为计算中心的时代,经典互联网的程序员和产品经理都面临职业危机,产品经理先死AI硬件的最佳「品类原型」尚未出现,眼镜、项链、耳机不同形态会有阶段性的赢家对比当下,硬件公司会变得更重要,因为设计生产和制造的知识经验暂时还不在 AI 的能力范畴之内未来有可能还会出现新的一种公司,叫做边缘算力、向量数据库的提供商生产力的跃迁,未来公司会更小;原有的「嘴炮」的人群会更强,因为他们洞悉需求且具备AI来帮助他们实现,容错率更高了03 为什么「AI 手机」注定是个「伪命题」?Apple 的落后如何追赶?手机还会有20年的生命,但不会因为AI带来大的变革了,今天的AI手机可能是先锋,也可能是先烈Apple 在 transformer 时代落后了,但拥抱开源和自研芯片是后手「AI 手机」可能是伪命题,因为手机厂商厌恶损失,来自 App 分发的收入会让他们船大难掉头,但手机厂商也不至于死掉 04 怒喵在研 AI 耳机爆料:为什么这款产品不惧抄袭?为什么AI硬件是真风口?怒喵耳机的设计思路:超长佩戴时长、高端版本带摄像头、未来可能具备低功耗5G、不惧抄袭和社区共创「透明做产品」AI 时代的软硬件开源,堪称「科技行业的共产主义运动」,创新不来自大公司和少数研究团队,这是真「风口」文字版有精简,不足以表达完整对谈的所有亮点,欢迎在小宇宙、苹果播客、喜马拉雅等平台收听完整音频。(可扫码文末二维码或点击阅读原文查看)盘点热门案例,哪些硬件难以成功?「少就是多」的取胜之道?
主播 Nixon:先介绍下 AI Pin,一个别在胸口的硬件,三个特点,一个是它是通过激光能够投射在你的手上来去做交互。第二个特点是它有一个摄像头,它能够去知道你面前有什么样的东西。第三个特点是它是通过语音来跟你进行交互。当然这些东西的背后都是它是 GPT 来去驱动它。故事是这样,当年乔布斯的产品经理(AI Pin 创始人来自 iPhone 团队)出来拿了 OpenAI Sam Altman 的投资做了这个,截止我们在录制的时候非常可惜,这款产品已经被若干个主流的媒介被评为史上最差,前所有的高开低走。主播 Thomas:从交互上来说看似做了一些创新,其实并没有简化整个手机的这个交互,它实际上还增加了一个更加复杂的基于激光投影的一套交互逻辑,我在这个第一天我就是不看好这个产品的。我们回归产品的最基本的逻辑,首先他有一个问题,就是他做了太多的加法,我们此时此刻如果说事后诸葛亮的说要砍掉什么,首先砍那投影,对吧?是,嗯,如果没有投影情况我相信会好很多。(投影容易发热,显然产品的工程构建是有比较大的问题)我可以下一更大的结论,有可能是三年以内,所有带显示的 AI 设备都是要扑街。倒不是认为技术真的不ready,我是从另一个维度来看的,因为今天手机行业的折叠屏已经开始上量了,vivo 的 X Fold 3 卖的不错,包括华为的X5。我们可以想象一下,三年之后是不是一个有钱人的兜里都会揣着一折叠屏,如果屏幕就在我兜里,还是那么大的一个触控屏的话,你用什么显示能打败他呀?如果让我来说那就是 AR,但是三年内我这个我认可,三年内 AR 是不会有非常棒的显示的,同时有很轻的这个重量跟很好的续航的,那在三年以后,其实我们还是期待有一个 AI 的 AR 的设备可以实现这一点吧。我们定义产品,首先定义的这些产品的尺度,我们有一个基本的方向性的判断,这个方向性的判断是以手机为根据的,它会比手机更大、更重吗?或者它会比手机更小、更随身呢?我觉得这个方向性的判断绝大多数人都不会错的,它一定是比手机更小、更轻、更随身、更便宜的方向去的,这个逻辑我们还能排除掉Vision Pro。主播 Nixon:我们接下来我们再来聊一个没有显示的设备,就是 Meta Ray-Ban glass。这个产品就是太阳眼镜上面加了两个东西,一个是加了摄像头,第二个是加了麦克风,核心的功能就是声音的这个播放暂停(语音指令),第二个就是拍照和拍视频。Meta 宣称有大语言模型视觉搜索问答,这个 AI 视觉功能截止目前还在内测,也就是说它是一个半吊子的功能,为什么李楠在用过之后都对这个产品给予高度好评?我很疑惑主播 Thomas:第一点它首先它很轻,它真的就是一个眼镜的重量,我专门跟朋友的框架眼镜去做了一下对比,重量上大概在 10 克以内的差距;第二就是它的基础体验非常好,交互上是很符合直觉的,语音通话跟它的画质,我是感觉超预期的,最大的惊喜来自于那个五个麦克风组成的阵列,降噪效果非常好。它是第二代产品。对,然后第一代我也买了。它本质上就是一个所谓的音频眼镜,音频眼镜的基础功能肯定是很完善的,因为第一代已经被用户骂的狗血喷头了。第二代产品它加了什么呢?第一,它强调收音,就阵列麦。第二个他加了摄像头的体验,我认为是噱头性质的吧。它有一个很重要的点,就刚才我们说的没做显示,所以它能维持重量和一个相对过得去的续航(我也不认为它的续航非常的好),还有一些堪称「逗你玩」的 AI 功能,我们不要把AI 想的太高级了,最常见的使用方式就是拿来设闹钟之类的。它是一个好产品,就给你三个功能,但是每个都做到 95 分,那一定会超越一个十个功能,但是每个都只有六七十分的产品。这其实涉及两个问题啊。第一个问题是我们叫做用户一想象产品就头疼,或者上帝就发笑,一个好的产品,其实控制用户的期待是很重要的一个环节,否则所有产品都是不完美的,没有任何产品会超预期,所以其实那个我觉得 Meta 正确的控制用户预期的一个很重要的点是它有上一代产品表现很一般,所以其实早期大家的期待并不高。第二个就是你说的这个关于多模态的应用,虽然现在有一堆模型号称多模态了,但是那个从现在的消息来看,很有可能都是混合模型,多个模型拼凑在一起,然后支持一些图片的理解,或者是文生图等等的功能。但是真正的多模态的理想大模型应该所谓的叫做原生视觉,我这个模型训练就是用文字、图片跟视频混合训练出来的。天然理解视觉的混合模型在今天应该是还没有。虽然那个 openai 内部的状况我们并不非常清楚,但是行业内的人认为 GPT-5 才是一个真正的混合模型,是一个真正原生的多模态大模型,这种期待我认为还是等原生多模态视觉大模型出现之后会更合理一点。已经有人演示了用 GPT 来识别冰箱里的那个食品,然后去搜索菜单了,但它并不是完全使用大模型的能力,它使用了以前的一些关于那个图像识别的技术。那这个最大的问题是,如果我们今天非常清晰的知道我们离能理解视觉的大模型已经很近了的时候,嗯,原先那些技术都会被抛弃的,所以其实在这上面费力不讨好的做是否真的值得?主播 Nixon:我们盘点几个其他的产品, limitless 是一个项链,这家公司之前我们报道过叫做Rewind,它之前是一个安装在你的这个 Mac OS 和 iOS 系统上,然后把你的屏幕做个截屏,记录下所有信息的一个无限记忆的一个助手,那现在他们把它变成了一个硬件实体,这个项链的核心能力就是它能够录下你和周围的人说的所有话,然后给你转录,给你总结,告诉你下一步该干什么,帮你记住所有事情。第二个产品,马上开始发货叫做 Rabbit R1,概念上其实跟 AI Pin 很相似,它是一个又有显示又有摄像头的一个产品,只不过是说它的显示没有那么激进,你可以理解就是一个更小屏幕的手机也有触屏,然后强调语音交互。三个产品的来自中国深圳的团队做的,叫做 Plaud 录音机,它就是贴在你手机背面上的,类似于贴在手机上的一个无线充电宝,帮你做实时的录音,然后用 GPT 做转录、做总结。好像现在做语音的好像成功的概率都蛮高的,对吧?( rabbit R1录制的时候,还在接受大量用户社群和媒体的质疑)作为 2C 产品,我们认为 Ray-ban 的有机会,然后 Plaud 已经成功了,而且我们认为 Rabbit R1 有可能会扑街,然后这里面有另外一个点,产品的概念如果不能用一句话清晰的说明白就很危险。如果我总结 rewind(指Limitless项链) 它就是 memory,我用一个词就说明白,Plaud 它就是 AI 录音机,所以我也很清楚,但你告诉我 Rabbit R1 是什么(Rabbit R1 的发布会的开场概念叫做这是一个 time saver)?你比较一下这个概念的清晰程度,完全两码事儿。这里有两个矛盾的概念呢。第一个概念是我们认为好的产品,然后它一定是可以 reference 以前的东西的,所谓的录音机加AI,很典型的例子,它的成功概率高。但我们还有另外一个概念,就是说我们认为是软件定义硬件的,软件决定性的变化的时候,硬件应该从零为它的能力而在设计,所以这就又要求你要颠覆以前的东西,所以现在 AI Device 这么混乱,就是所有人的意见都不一样,就因为这两个东西在冲突。两种哲学都是对的,但提出的要求完全相反,一个是告诉你别瞎搞,领先半步,另外一个是告诉你要创新,要从最根本的算力变革想问题。AI 硬件完整分析:加速算力革命、可穿戴作为计算中心的未来、商业格局
主播 Nixon:我觉得肯大家肯定更关注的是第二种逻辑,就是我既然是软件定义硬件,或者是说大模型和 AI 定义硬件,那所有的一切推倒重来,我们从头开始应该怎么做,对吧?我们首先做一个比喻,老黄(黄仁勋)已经给 AI 的算力发明了一个词叫加速算力。他为什么要发明一个新的词叫加速算力?是因为它要针对以前的经典算力做出根本性的区别。什么叫经典算力?亚马逊云、阿里云上跑那些东西全是经典算力,它是冯诺伊曼结构的计算机跑的确定性的代码,然后输入跟输出之间的关系是我们人知道的,是我们自己写的,而且它是精确的,你可以把它看成是种地;那加速算力它是一个大模型,它是用一些基本的 Transformer 等等的东西训练出来的,然后整个神经网络生长的过程实际上是我们不可控的。然后它训练出来之后我们发现它能用,然后我们就给弄上去,然后你使用它来推理,然后这个叫加速算力,那加速算力你可以认为它类似是放羊。这次 AI 算力的变革,它的力度之大,让我们从一个农业社会进入了一个游牧社会(当然在人类历史上的那个先进程度是反着的,但是那个我们认为游牧社会的这个能力是更先进的),因为它的动态更高,它的结果更不可预测,对吧?然后所以它更像是放羊,但是最重要的是完全两代完全不同的生产力,所以基于此,我们的确应该重新根据全新的算力去考虑一些事情。举个例子,经典算力下最典型的图片处理 Photoshop 它是对象和命令的方式,弄好多窗口,好多命令。但是今天加速算力下的经典的图片处理 Midjournery,它是用自然语言描述你的想象,它给你生成图,你会发现这两个东西完全就不一样,种地所需要的工具和放羊所需要的工具完完全全的不一样。基于此,那么硬件理论上其实也会像软件那样。如果要是种地的话,我需要的是联合收割机。放羊的话,我只需要一小摩托或者一无人机。因为那个生产的生产力本身变化了,对应它的工具就变了。当然 Photoshop 里面也可以加入 AI 功能,但它一定不是一个可很可靠的形态。所以我觉得又回到一个经典悖论:已有产品加AI,短期内是高胜率的。但是从算力的变革从头考虑问题,就是人类的一些根本的需求是不变的,但是交互的逻辑有根本性的变化了(从对象和命令变成自然语言),人类的一些根本的需求是不变的,但是交互的逻辑有根本性的变化了。我们如果想走第二条路,就是打造一个最适合放羊的硬件,然后我觉得要把这些变的跟不变东西想清楚。主播 Nixon:之前李楠你认为不同的这个设备应该是有不同的站位,然后它会有不同的一个算力的一个分布,这个你可以展开讲吗?整个 3C 科技行业一直有一个关于个人计算设备尺度的一个预言,而这个预言到今天为止一直是有效的。这个预言是当年乔布斯在示例,在有一个叫马克·维瑟的工程师提出来的,他认为个人计算设备是至少有一个电视大小的,像一面墙一样;然后同时有一个像 iPad 大小的,就今天他当年提出来的预言叫Tablet,但今天其实我们知道它是 iPad 大小的一个,可以捧在手里像书本一样的平板;然后手机的那个就不说了,但他又预言了更加未来的事情,他认为我们肯定还有 Wearable device。那今天其实我们已经看到了 AI Pin 失败了,但是Meta 的眼镜成功了,这是明确的, Apple Watch 也算。那他又预言,说 Wearable device 的崛起以及传感器的无处不在。其实今天也是了,就是摄像头已经遍地都是了,最终会让计算个人计算完全的隐隐形化。我觉得最理想的状态是我们出门我们就带张脸,我们啥都能干,我忘把手机放家里又怎样?隐形计算或者计算无处不在,我可能不太相信,但是 Wearable 我是 100% 相信的,还有一场经典争论是 Handspring(PALM 智能手机前身),我不知道你们知不知道这个公司,这家公司的 CEO 当时做智能手机搞得焦头烂额,然后跟乔布斯有一场会议,这俩哥们在白板上,乔布斯画了一张图,就是那个人计算设备的最核心笔记本,他把自己的那个 MacBook 画上去了,然后他周围画了一圈,什么手机、手表乱七八糟的,然后都围绕着笔记本,笔记本是个人算力的中心。Handspring CEO 怒了,说不对,他把手机放中间了。乔布斯不同意,可能后来回去自己想了想就做了iPhone,所以如果此时此刻再画一下手机,仍然是重心,就如果会发生变化,谁会在中间呢?主播 Nixon:我相信这里很多人可能就会有疑问,今天我们的可穿戴设备的计算处理能力都非常的弱,即便是最成熟的智能手表,类似于像华为这些品牌出的待机 30 天,执行的是 RTOS 系统的穿戴设备,目前看不到它成为个人计算中心的潜力的。我不知道这个问题会怎么样去发展?Handspring CEO,在白板上给乔布斯画那张图的时候,手机有一模一样的问题。主播Thomas:我觉得未来可能不是某一个设备永远呆在中间,它实际上是一个更人因驱动的,根据你现在在使用的设备而随机切换的这样的一个状态。就比如说我现在在用电脑,就是我的中央设备。那如果我走到街上我只带了一张脸,当然不止脸,我可能有一个 Wearable 的设备,在我身上的时候它就变成我的中央设备,然后它可以调用,不管是端还是云,还是你其他的设备的算力和其他的能力去完成一些在当下你需要完成的一些应用,这个有可能是未来的一个明确的我认为的一个方向。我觉得五年内可能很可能那个地方还是手机待在那里,那可能在五年以后也许会有其他的方式去共享这个算力,但是在那个时候可能那个设备也是一个切换的状态。同意,但是我不同意的是 timing,你这是第四步。施乐的关于个人计算设备的演进的这个大的途径已经被过去几十年证明了,最终到隐形计算的那一天,的确就是我们带一张脸,然后那个数据跟算力都随时可以调用。过程当中是否会出现一个第三步?就是它是一个比手机更轻、更小、更便宜的设备,它会更随身。它成为中心的理由不是因为算力更高,因为手机也不是因为算力成为的中心,它成为中心的理由是他更容易访问,手机比笔记本就更容易访问了。但是你会发现今天 Meta glasses 会比手机更容易访问,因为 Meta glasses 戴在脸上,但手机揣在兜里。同时它更侧重于传感器而不是算力,然后同时它有网络连接能力。我觉得第三步是有可能会出现的,就是会有一个 Wearable device 更随身、更小、更轻、更便宜,有更强的感知能力,以其更强的网络访问能力,那它是有可能是我们的第三步。形态下不了结论,我们可以下的结论是什么?第一他一定得从兜里掏出来,穿在兜里没有意义,对吧?我再给一个暴论,越靠近头部越好嘛:第一个方面是从人的维度来考虑,既然人的传感器都在脸上, AI 的传感器靠近脸是一个合理选择嘛,然后但从另外一个维度考虑就是你看(人形)机器人他们是不是(传感器)都给怼脸上?眼镜、耳机、项链,形态跑不出这三个,是可以下结论的。但我一直不明确最终形态,就是因为其实我们还有另外一个考虑的维度,这些需求以今天的技术能力,设备的尺度和重量的合理的点是变化的。今天我用 70 克可以达成的东西,三年之后我可能只需要 40 克,然后再过三年也许我只需要 15 克。其实耳机经历了这个过程的,原来七八十克甚至 110 克的,但今天 Airpod 5 克。一旦你明确了大概的方向跟需要的东西以及解决方案,但是它的重量变化的话,那么就意味着它的位置会变化,所以我认为这个答案不是明确的,此时此刻也许真的一个帽子更合理,说不定对吧?主播 Nixon:形态聊清楚了,这个戴在头上的东西他应该帮我们解决什么问题?或者他是怎么工作?我觉得这是我要问李楠的问题。一个 Wearable 的东西,如果它成为中心,它是解决我们生活当中哪些问题呢?我们今天已经积累了几十年,无数天才的个人计算设备的所有的解决方案,那如果真的有一个中心式的设备出现,那么一定意味着他要解决以前没有解决的问题,他不太可能重新解决一个旧的问题了。你从今天所有关于 AI Device 的所有冒出来的新的问题跟挑逗起来的新的欲望里面看什么问题没有被真正的解决,甚至压根就没有解决?其实是传感器,原来笔记本上的传感器很少,然后我们在手机上加了无数的传感器,今天手机是一个超级感知设备的时候,我们没有解决问题的,最大的问题是这揣在兜里。我们首先是需要看掏出来的在合适位置上的更多的传感器,我们解决了电池问题之后,我们让它更长时间的工作,最终电力完全不是问题的时候,我们让它 always on(或者是首先是 Instant on 才可以更快的启动)。传感器是一个极高价值的新的需求,而且这个东西没有以前的天才给解决好。(理想情况是应该复原一个每天都跟在你身边的一个助理一样,他了解你看过、听过的所有东西,然后他甚至能够帮你去完成一些事情。)所以如果我们从人的需求、欲望跟那个本能等来分析的话,是我没有一个 always on 的,或者 always ready,然后Instantly on的传感器的集合在外面,对吧?不可能揣在兜里。主播Nixon:补充一下,就是有了传感器之后的事情,最近看到一些研究,包括就是那个 Rabbit r one,基于一种新的模型,叫做 language action model 大行动模型,这个模型它重点不是理解语言和序列数据,它的重点理解你那个数字交互界面上的东西,然后自动的去帮你去执行需要在软件里面做的操作,这是完整链路。但这里面我觉得要区分,就是说我个人不太看好 R1 的一个很重要的原因是他仍然假设 GUI 存在,我觉得这个是一个很线性的思维模式,没有问题。但是我强烈建议大家关注另外一个斯坦福两个中国小孩搞出来东西叫 Octopus(一个模型,也被称为章鱼,八爪鱼) 。首先是基于人类欲望自然语言,然后自动执行,这是所有人都知道的事情,一定会达成的事情,但章鱼的路径更直接,就直接写脚本,跳过了GUI。但我觉得跳过 GUI 是大概率了,因为 GUI 是给人看的,不是给 AI 看的,本质上。这并不激进,它更简单,从各方面都有优势:第一它的模型更小,然后第二它的执行效率更高,第三它的速度更快。而最重要的,因为我们说未来如果有新的(计算)中心,它一定是比手机更小、更随身的设备的时候,它的电力消耗更低。就是我觉得让 AI 操作的最傻的地方是 GUI 本来很耗电,我又弄了 17B 或者更大的大模型,然后这大模型又在这设备上操作更耗电。(高通的最新旗舰手机支持最大70-100亿参数,但今天Octopus 只需要10亿参数就能实现准确性、延迟方面超越了 GPT-4,并将上下文长度减少了 95%)主播 Nixon:其实今天还有一条路径我觉得是很清晰的,现在一些论文把它叫做 flow engineering 或者 pipeline engineering,能够把大模型的算力的需求以及大模型的上下文需求以及它的准确性都做更极高效率的一个提升。比如 Rabbit R1 它能把大模型的响应时间缩短十倍,美团的光年之外,他们受到一个项目叫做 stream diffusion,就是能够实现每秒 100 帧的图像生成的一个项目的一个启发,他们做了一个产品叫做 DodoBoo,毫秒级,无需 prompt 就生成图片。想想一年之前我们还需要和Discord 的对话框互动好几轮才能得到一张图,对比起来,算力的提升,加上整个工程链路的迭代,这个确实是一个比摩尔定律还要更加恐怖的一个事情。主播 Thomas:前两天这个 Meta 刚刚发布了他最新的那个开源大模型 LLAMA 3,他们官方就说它的这个训练效率就已经提升了50%,就是同样训练出这么大一个模型,它比上一代LLAMA 2要效率高了很多,这就是刚才提到的效率的提升,而不是单纯算力的提升啊。聊到这里我觉得 Wearable Device 普及的可能性没有这么遥远了。我认为三年之内,渗透率从零到 50%:互联网技术几十年,智能手机从 iPhone 到渗透率超过 50% 用了六年,下一代迭代会更快(因为产业链主要在中国), AI device 一旦出现「iPhone 时刻」三年应该就能过半。就像这几天中国新增乘用车里面电动车的渗透率超过了 50% 的新闻,它之所以是新闻,就是它比大家想象的都要快。主播 Nixon:还有个问题,一个人想要实现什么欲望?大模型自动去写代码去帮它实现。那未来开发者怎么办?就开发者还存不存在,或者开发者帮大家解决哪些问题呢?现在已经有很多很有名的人,比如说 c 语言的创始人好像是,然后包括老黄,都在预言两件事,第一是 5 年之内程序员会消失,第二是人人都可编程,其实他们说的是一件事儿。主播 Nixon:我还有不同的这个看法,可能开发者倒不至于完全消失,但不像今天这么有价值。比如说有的开发者的他就可以去针对一些垂直的场景去做一些模型的一些优化,对吧?我觉得这是一个方向,还有另外一个方向是说在很短的时间之内,至少今天看来我们还没有看到一个人跟 AI 很好的一个交互范式。这个交互范式怎么理解?比如说今天如果你是想要买,在淘宝上买个东西,其实你的欲望不止包括下单的那个动作,你的欲望还包括说你要有浏览,你要有对比,你要有那个购买的那个过程这一部分,它是一个精神性的一个需求。我觉得这些需求可能还是有一些交互,有一些还是有一些产品经理和设计师他需要来去解决的一些问题。我认为比程序员先死的就应该是产品经理,过去几十年移动互联网以及 GUI 横行的时代,培训了大量的产品经理。嗯然后这产品经理曾经是掌上明珠,对吧?但是这些他们所相信的所有的东西都不重要了,以前的产品经理一定是说,我怎么把这个重要的按钮排到那个常用的位置上,然后怎么给用户明确的提示?全是基于 GUI 的?全是基于对象和命令的,对吧?然后号称研究一些人性,但是今天你在 Midjournery 或者你说的那个小孩简笔画的这种交互模式下, GUI 重要吗?不重要。所以其实我觉得这些产品经理如果不能抛弃掉以前的东西,越成功的产品经理越会成为他的职业负担。而且还有另外一个很有意思的事情,就是说 Adobe 这种公司,它做一个图像编辑或者是图像生成的软件,它需要动用多少资源?多少人?而今天 Midjournery 他在 Discord 里,他连自己的 APP 都不写。我如果连 APP 都没有,我为什么需要产品经理?这当然也需要了。对,但是不需要那么那么重要的产品经理。这里指的是过去范式的这种互联网软件产品经理,我觉得硬件会相对好很多,硬件产品经理最核心的能力不在 GUI。没错, AI 可以代替大量的程序员,对吧?然后 AI 可以消灭 GUI,对吧?但是 AI 现在还没有黑灯工厂, AI 还是造不出硬件的。当然现在也有人用 AI 给自己设计自己的数据中心,但是完整的硬件的、全流程的黑灯工厂,AI 完全从零开始设计的,这件事儿应该是在未来 15 年我们见不到的吧。从整个 AI 演进的路线图上, 5 年后才解决 3D 建模,就红杉有过这么一个路线图。主播 Nixon:对,而且从 3D 建模到它能变成一个在生产线上加工的模具,这中间还有巨长的路,未来有可能还会出现新的一种公司,叫做边缘算力的提供商,很有可能觉得是通讯公司的转型,他现在给你提供的是通讯网络,但未来可能是一个云端加密的一个向量数据库,你所有的数据都通过你的 Wearable device 传输到那里了,那未来可能这家这个提供商给你提供两种服务,第一种服务是帮你存储,第二种服务是它确保这些数据部署在离你很近的位置,你在调用这些数据的时候,信号不是从深圳传到北京,而是从深圳传到深圳市的一个机房,满足你的很多相对低延时的需求。还有很确定性的那个几件事情会发生啊。第一个是我们说程序员和工程师会变得不重要,会变得更少。一开始是刀耕火种种地,那后来出现了联合收割机之后,会有更值钱钱修收割机的人。那未来维护 AI 的人其实刚才已经提到了,就是对 AI 做剪枝蒸馏效率优化的人,他们不会消失,他们会越强势。第二点是我们看最早期的软件公司几万人或者十几万人很正常,比如说,微软。然后像互联网时代 Discord 的这种公司 500 人,Midjournery 十几个人,未来会更少的一个很重要的理由是,今天已经有人说我一个人加 7 个 AI 开店了。对,所以生产力的进一步的跃升,会导致商业组织的人数越来越少。所以可能未来都是项目以及项目分成的模式,自由组合。洞悉需求的人,以前可能只是我们所说的嘴炮,是一直以来我们鄙视的对象,他们之所以被鄙视的一个很重要的原因是未被满足的需求一定低胜率,它的失败的概率就是 99%,所以它会不停的被嘲笑。但是当今天我们的组织变得更小,我们的生产力更高,我们去失败的成本更低的时候,这些不停的洞悉全新的需求,并且能承受 99 次失败的人会越来越成功。为什么「AI 手机」注定是个「伪命题」?Apple 的落后如何追赶?主播 Thomas:今天我觉得我们如果从硬件生态、硬件设备的角度去切入,我们看到的就是不管是手机、PC,又或者是其他的什么设备,大家都在做 AI 开头的手机或者是 PC 手机这个事情,它是不是还有 5 到 10 年的生命力?那第二呢?在这个过程中它跟 AI 要如何去结合呢?我觉得我们也想听一听李楠的看法呀。手机还有 20 年的生命力,因为今天笔记本也很有生命力,所以手机肯定是有生命力的,而且手机的加 AI 是必然的。但是我们做商业机构的时候,我们有一句话,就是说所有人都会进步的地方没有优势,加 AI 赛道是一个很卷的赛道,而且大家卷完的结果是其实不赚钱。我完全认同,因为现在其实有一些手机厂商在我看来他可能卷的方向就不太对,自己去做 AI 的大模型,它可能花了几百上千人写了一个类似 LLama 的这种这样的东西,然后把它用在了自己的设备上。我其实觉得这种方向就不是一个手机设备厂商他应该做的事情,不管是 Rabbit 还是 Rewind,我相信他们不会自己去做这个大模型的基座的,他们实际上是在应用这个所有的这个 AI 的这个成果,而不是说我重新把这个轮子去生产一遍。李楠也提到了说做 AI 可能激进会死得更快,我觉得其实指的就是这些跑在前面亲身去做 OpenAI 的这些人。那他们自己想重新写一个模型,其实我也不看好这件事情。这个我是两方面看的,一方面是有先例,具体举例就是苹果跟三星,他们分别在几个比较重要的垂类上掌握了核心技术,比如三星的柔性屏、苹果的 M 系列及 A 系列芯片,以及三星的存储。但如果我可以举出这两个正向例子的话,那反例至少有 200 个,小米的芯片、OPPO 关闭的哲库芯片。主播 Thomas:因为为大家都说苹果落后了,我们是不是就在这聊一聊那苹果的 AI 的可能性啊?在端侧,我认为其实它相对是更领先的,因为我们现在听说的状况就是云侧的 AI 都是通过跟合作的方式来接入一个云端的大模型。比如说在海外目前的信源主要指向的是 Gemini(就是 Google 的大模型),然后在国内消息说是跟百度的文心一言合作,你怎么看?苹果其实很早不停的在收购一些 AI 公司,其实它也使用了很多 AI 的技术,但是我觉得在这里面我们首先要非常明确的把 AI 也给画一个带,就是 2023 年 GPT-5 发布基于 Transformer 的大规模神经网络的 AI 是一种 AI。然后但是之前的那些 AI,比如说 NLP、自然语言处理等等等,它是另一种 AI,然后包括那个对今天的视觉识别方案其实是跟大模型没关系的。苹果真正落后的是基于 Transformer 的大规模神经网络的 AI。应该说 2023 年 OpenAI 真正把这事搞成了全世界当头棒喝的时候,导致了今天苹果是被动的。但是苹果有两个后手,第一个后手很简单,就拥抱开源,微软就是这么起死回生的嘛。然后所以其实苹果完全可以拥抱开源,像那个我们说的那个八爪鱼(新模型Octopus),对吧?其实它今天装到 iPhone 上就会比 Siri 好用。比如 MacOS 和 iSO 的底层 free BSD 就是开源的,所以他也会用,只不过是苹果在商业上的考虑会更多,他选 free BSD 的一个很重要的原因是商业许可证对他来说更灵活。所以开源阵营表现并不弱,它可以保障苹果的底线。然后那第二点,苹果还有杀手锏。OK,也许算法、数据训练等等这些东西,我已经不可能从头追赶,但是苹果可以设计芯片啊。我们在去年年底的时候就知道苹果找三星要新的内存速率、数据吞吐量提升至少 5 倍,在那个去年年底的时候,我们并不非常清晰的能搞清楚他图啥,但是今天来看应该是跟 AI 相关的,因为 Transformer 就是一个典型的非常对于内存和的读写带宽有极高要求的一个模型架构。主播 Thomas:这里给听友解释一下,因为过去我们的理解就是内存小一点可能速度会慢,对吧?但是 Transformer 的架构决定了它就是没有办法运行,如果你内存没有到某一个尺寸,挥着带宽不够的话,它是跑不了的。这就是为什么 Nvidia 在卖它的 AI 的卡和卖它的游戏卡的最大区别其实是它的这个显存的带宽和显存的这个大小。李楠提到的这个苹果找三星要求它提升 5 倍存储速度,指的是它的这个闪存,就是用来存储东西的这个设备。我们其实现在的 MacBook 里面,大家就如果你买的是那种,比如 8GB 内存的这种看起来已经甚至内存比手机还要小的这样的设备的时候,其实你大量的应用已经是跑在你的闪存上了,是跑在你的存储器上了。苹果的这个要求刚才李楠也提到了,我们只能想到一个原因,就是他希望能够用存储的这个能力来运行 Transformer 架构,那这件事情的想象空间其实是很大的,因为如果能做到的话,那么每一台电脑,因为我们知道至少都有 256 g 或者是 512G 以上的这种存储能力,如果说苹果能做到这一点,那么苹果的设备将是一个非常强大的端侧,能够运行 Transformer 架构的大模型的这样一个设备。对,简单的科普一下。主播 Nixon:李楠一直在微博上说,认为现在的手机厂商去做,AI device 或者 AI 手机的话,有一个本质性的一个问题,就是因为说今天的手机应用生态开发者传播和营收的一个渠道,对吧?所以然后这些公司本身也有一个很重要的一个业务,是要跟开发者收钱,李楠一直认为这会是一个手机 AI 化的一个障碍,哈哈,我不知道你能不能展开讲解一下。今天的手机品牌的竞争在某些价位上因为两个原因被挤压利润,然后第一个原因就是品牌之间的竞争互相杀价嘛。然后另外一个原因是除了华为和苹果这种有自研芯片的品牌,他们都要用高通,高通实际上是在不停提价的,就是也许几年前我们 70 美金可以搞定的芯片,今天需要 140 美金,那就意味着其实他们整个的硬件销售是处在一个非常威力甚至会亏的状态,就有了后向指标,然后小米是行业内很优秀的后向(收入)指标(指广告、金融等互联网收入),它能在获取销售的 10%。OK,那也许我可以亏 5%,但是最后我总体看来我赚了5%。所以今天实际上,基于 APP 分发的,尤其是游戏分发的后向收费已经是手机品牌的盈利的非常重要的来源,或者是你可以认为是生死线。但 anyway 它都是关于 APP 的生意。如果你想给用户更超越的体验,就比如说我们刚才看那个八爪鱼之类的这些新的 AI 模型,那你会发现它会不停的会想办法跳过APP,甚至AI Pin,也完全不需要 APP 生态,你即使用那个 Meta 的glasses,现在供应链数据 1Q卖 30 万条的眼镜,然后它的 APP 其实没什么用,然后所以在这种情况之下,那我是否有动力去分发 APP,然后再给手机品牌钱?其实,嗯, Meta 应该是没有的。手机行业的品牌面临一个两头挤,就是第一是那个:实际上我是非常需要 APP 生态带来的一系列的应用分发,优先发跟广告分发的利润来去确保我赚钱的。但另一方面我想获取更多的用户,就要提供超越的体验,而这个体验很有可能要求我要把我赚钱的这个生态干掉或者削弱。但在这种情况之下,船越大,掉头就越难。主播 Thomas:我们假设有一个 Wearable 的 device 变成了中央设备,那它的盈利模式或者它的模型可能是一个新的一个赚钱的模型,对吧?它会是大概是什么样子的?to C 生意的商业世界的一个最基本的逻辑是,我赚钱是因为我为用户提供价值。这个设备如果能做到为用户提供价值,他不会想不到收钱的办法。当然也许今天不是非常清楚。如果是这样的话,我觉得说回手机这个我可能相对更乐观一些,就是当然手机厂商转向一个更好用的,一个基于大模型的这种设备,它会有这种传统的收入的限制带来的这种它的这个转型的困难吗?因为它内部有很多利益要平衡,它的收入的体系要变革。但是我们刚才其实李楠也提到了,在这个生态里面其实最赚钱的是游戏嘛。那如果说手机这个设备 5 到 10 年内都存在,然后用户其实还是需要用它来玩一个比如说王者荣耀这样的游戏的话,它仍然会需要在手机这个设备上做一些传统的事情,那这些事情应该还是能够保证手机厂商的这个比较核心的这个部分的收入的。然后新增的部分那也是一样的,就是如果说它有一个其他的方式可以通过 AI 来给用户带来价值,那可能也会有顺应出现的新的这种盈利模式,来确保这些目前看起来已经是一个消费电子里面最头部的这几家公司的这个整体的这个生意规模,他有办法通过这种方式来满足的,这个是我相对乐观一些,就我觉得手机厂商他也不是一个等死的状态,因为他也能看到它的未来,如果就守着自己的这个目前的这一亩三分地,它肯定是有危险的。但是它在保证它的基本盘不死的前提下,我相信他会做一些改变。当然这种改变不足以影响我们刚才的推论,就是毕竟它还是在兜里,对吧?我们现在处在行业变革期的话,其实我们看以前的例子,诺基亚不知道 iPhone 是革命性的东西,对吧?所以实际上有两点是高度有疑问的,第一点是什么呢?第一点是这帮人在是现在成功的手机品牌里身居高位,为什么电车新势力会把什么一汽大众打的找不着北满地找牙一样?嗯,因为在那些人里面坐发动机的人是位置很高的人,你要把发动机跟变速箱革命掉了,对吧?所以这是一个从组织上面的判断,给手机做后向的人,影响我最终公司整体盈亏的人身居高位。第二个问题是人性很根本的点就是贪婪。获得一块钱跟你损失一块钱,你的痛苦是成倍的,公司也是一样的。基于这个贪婪,我有这么庞大的组织架构,然后我养这么多的人,对吧?嗯,我只要动动嘴,后面那么多的一级的团队加外包给我干活,而我们刚才说了会有新的组织变革,然后也许另外那家公司他没有这么大一条船的时候,他造了一个摩托艇,甚至造了一个无人船,或者他不需要承担那些贪婪了,因为我压根就没有那么多人,对吧?Midjournery,你只有十几个人,对吧?他不需要承担 Photoshop 上万人的,其实他们肯定还是有危机的,而且这个危机不是认识可以解决的,很有可能是不是认识可以解决的。但反过来说,诺基亚没有死,诺基亚也仍然在做功能机和智能机。而我觉得还有一个很好的例子,就是传音,传音是在智能手机时代被干掉的功能手机公司,它以前是波导的人,波导这些积累了这么多组织能力和财富的公司不那么容易死,然后包括黑莓。我们说的成败无非就是你在不在浪潮上而已,其实不涉及死活。
怒喵在研 AI 耳机爆料:为什么这款产品不惧抄袭?为什么 AI 硬件是真风口?
怒喵x魅族 联名AI 耳机信息,图片来自:发布会及李楠微博主播 Nixon:我们最后聊一聊李楠正在做的设备吧。怒喵的产品好像开发的过程都挺透明的,比如说之前就直接在魅族的发布会上,联名产品的就直接出渲染图了,可能很多听众都能拼出来一些李楠要做的方向,我还是希望李楠从头讲一讲设计的理念。第一个假设是那个我们首先要解决好音频,原生视觉的 GPT-5 到底 2024 年能否发布还是疑问,对吧?所以我们首先把确定性的东西做到足够高的分数,所以那就意味着一定是音频、眼镜或者耳机;然后第二个,我们在考虑体验的时候我们认为这个设备如果真的有价值,就一定需要更长的使用时间,这是一个悖论。举一个 Meta glasses 最的 use case 就是提示我只有 10% 的电了,然后我是个近视,我把它放到充电盒里,充电的时候我还得再把另外一个眼睛找出来,所以我这是一种强买强卖。对,你得买俩。我们的第二个选择是认为如果他真的能给用户提供更高的价值,它应该有更长的续航,至少一天 8 个小时能撑得住。那基于这两点,你会最终确定这个产品的重量,你会发现 40 克以上的重量挂在脸上,挂在鼻子上,我们认为是不可接受的,Meta glasses 应该是 40 克左右吧。那第三个点就是我为用户提供的真实的价值,它随着时间如何变化,我们认为那个 AI 会越来越聪明,这个我觉得没有人会怀疑了,甚至有人都说 AGI 要出现了,那我们会越来越依赖它,让它能提供越来越高的价值。今天他在胡说八道。但是那个也许 6 个月之后他就会非常靠谱,因为我现在已经看到了很多那个不胡说八道的新闻搜索 AI。基于这三点推测,我们认为应该是目前此时此刻应该是耳机,就是随着短时间 AI 的能力越来越强,然后导致我们音频的交互越来越靠谱,我们每天要使用更多的对话,然后而与此同时我不愿意把它摘下来。那目前看来,其实只有挂镜或头戴耳机才能承受 60 克以上的重量达成这个结果。可以带摄像头,我们会设计两个版本高低端,然后一个无摄像头的便宜一些,一个有摄像头的贵一些。主播 Thomas:这个摄像头它会承载什么样的功能?它跟 Meta glasses 是一样的吗?我们不太 care 拍照的效果,就是它的本质是 AI 的眼睛吗?其实这个摄像头的产品定义完全 Follow AI Pin,理由是谁都不知道 GPT 5 的视觉能力到底对硬件会提出什么样的要求,因为这东西还不存在,但最接近这个东西的人一定是 OpenAI 的团队。奥特曼投了AI Pin,所以 AI Pin 的那个上头的参数应该不是胡乱确定的:一个 1300 万的广角。主播 Thomas:那这个设备它的算力,其实它的 AI 算力其实在云端的,对吧?AI Pin 算力也在云端,然后 Meta Glass 的算力也在云端。你可以认为它的本质是传感器加通讯。另外看你给他什么样的网络能力。如果是蓝牙和 Wifi 的话,它是手机的配件。对,如果是 4G 或者 5G,现在小天才手表 70g 可以做到4g,作为参考(满足戴在头上的场景)。我们在中国我们会有一种误解,嗯,就是 5G 网络已经遍布各个角落了,但真实情况下在海外 5G 的覆盖率没有那么好。(因为)以前没有出现这么强的 穿戴设备的 的直连网络潮流。然后实际上高通发布的新一代算力平台芯片,尤其是针对穿戴设备,比如说 W35 这种,它是低功耗 5G,冲的是什么?一定不是手机。主播 Thomas:大概价格?在整个行业里,您现在有看到哪一些有可能成为竞品的这样的一个团队或者是产品吗?价格不行,对,哈哈哈,如果我现在透露价格,那么我只能告诉你,那一定很贵,我要拉价格预期,对吧?我们的信条叫 Young Money,我们不赚穷人的钱。如果我们的设备领先到没有竞争对手的时候,在行业发展早期其实追求一些高价格,第一是合理的,第二它不一定是坏事。为什么我们都是这么透明的在开发产品啊?就是因为我们做了多年消费硬件,然后我们就发现一个很有意思的事情,就是我们用语言描述一个产品,它一般来说是 12 个月之后的东西,然后如果很不幸的话搞到 18 个月甚至 24 个月。然后我们用语言在最开始描述的这个东西,然后到最终生产出来,你弄 100 个团队同时干同样的描述,他们拿出来的会完全不一样。这很有意思。对,然后那个这里面涉及的产品决策,因为一旦做一下,你会知道非常的邪,包括那使用什么样的材料,怎样影响重量,用什么样的表面处理,等等,这些你可能需要做 1000 个决策,不可能这些团队都做得一模一样,而这里边有至关重要的影响生死的决策,可能有 5- 10 个。我觉得 100 个团队全部选一样的概率也不高。主播 Nixon:确实,比如耳机加摄像头的事情,上个月有媒体分析就信誓旦旦说苹果在做有摄像头的耳机原型,苹果一定是在做空间声场。说的有鼻子有眼,我当时看的我特别兴奋,我还转发给了好多人,现在我看我觉得确实就是李楠说的这个情况,看到同一个摄像头,大家对他的想象是完全不一样。回到这个耳机,我觉得大家可以期待一下,它是一个由怒喵出品的,有着一贯的非常高水准的制造和工业设计的一个产品,然后期待李楠在今年晚一些时候可能是双 11 或者是什么美国 Black Friday 之类的给大家上一下。我刚才说了,整个公司的组织架构也可能发生变化,然后我们也欢迎对这个有兴趣的人一起干,如果你是技术人员,你不会愁卖,如果你是软件人员,有人替你搞定硬件。还有一个点,硬件最终我认为也是会走向开源的,因为我以前是做软件的。然后当你真正经历了开源的浪潮,真正见到他能打败甲骨文这种级别的公司的时候,你相信了它的时候,甚至你可以把它叫做科技行业的共产主义运动,而且这个潮流是兑现了的,是不可阻挡的。主播 Thomas:昨天还有另外一个新闻,就是 stable diffusion 发了第三代的产品,然后据说他已经对打败了闭源的 Midjourney主播 Nixon:今天我们可能提到的一些我们应用的一些论文,比如 pipeline engineering,包括讲章鱼,它都不是大公司出来的,这波算力包括工程效率带来的提升,它就是属于那些舞台聚光灯之外的一些公司和团队,你要做的就是静静的等他们出现,然后去相信某些事情是对的,然后 follow 他们。这就是风口的特点,这就意味着它是一个风口。未来 3 到 5 年,我觉得对于硬件创业者来说前途无量。主播 Thomas:如果有志加入怒喵科技,跟李楠一起这个在 AI 硬件的时代打拼的听友,欢迎微博联系「李楠或KKK」推荐大家在小宇宙、苹果播客、喜马拉雅等平台收听完整音频。参考资料:AI Pin / Ray-Ban Meta 智能眼镜 / Rabbit R1 / Limit Less项链 / Plaud 录音机 / 加速算力 / 施乐马克·维瑟提出的普适计算 / Handspring / 新模型Octopus(章鱼,八爪鱼) / 代表 Pipeline Engineering 的 StreamDiffusion与Dodoboo / 苹果针对大模型的内存优化论文《LLM in a Flash》 / 魅族发布会宣布转型AI手机和AI终端预告苹果 5 月发布会超全爆料:首款「AI 硬件」,小尺寸或缺货,iPad 配件大更新
狂卖 10 万台的最火 AI 硬件,只是给 Android 应用造了个壳?