---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. 都在这里了,Figure 视频里都藏了啥?
Figure 02 风评褒贬不一?Figure 02 藏了哪些细节?比起模型,Figure 这次更重视「人形」设计吗?业内是如何逐帧剖析Figure视频的?Figure 可能用了什么模型?...
2. 美股「七巨头」市值蒸发 8000 亿美元,GenAI 的泡沫是否已经「见顶」?
为什么 Gary Marcus 认为 GenAI 泡沫将于今年年底破裂?泡沫破裂的判断依据是什么?有哪些表现?「美股七巨头」的财报表现如何?赚到钱了吗?在高额的AI投入与收益之间,如何平衡?各家巨头把钱都砸在哪了?...3. SemiAnalysis 深度报告:全球人工智能数据中心面临的能源困境
目前 AI 数据中心面临着哪些核心能源挑战以及瓶颈?SemiAnalysis 的深度报告都有哪些核心观点?成为真正的AI超级大国需要达到哪些要求?...
...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 6 项,国外方面 16 项。
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 都在这里了,Figure 视频里都藏了啥?
事件:硅谷具身智能创企 Figure 近期发布了新一代人形机器人产品Figure 02,较上一代机器人在外观、配件上均有不同。但相比Figure 01 发布时带来的震撼,有声音认为此次Demo所展示的能力似乎「没有想象中的优秀」。1、Figure 的创始人Brett Adcock在社交平台展示了该公司第二代人形机器人产品Figure 02 的演示视频,称该产品是「The world's most advanced AI hardware」。[20]① Brett Adcock在社交平台上强调Figure 02 的 设计评审总共耗时18个月,其工程和设计团队完成了对Figure 02 硬件和软件的彻底重新设计。② Brett Adcock还介绍了Figure 02 的一系列亮点,包含:6 个摄像头:电池容量提升50%;机载VLM;3 个 CPU / GPU;第四代灵巧手;集成布线;外骨骼结构;语音到语音推理等。2、Figure 称,Figure 02 目前已在宝马位于Spartanburg的工厂实习工作,配合团队进行「数据收集和用例训练」。① 此前,Figure在2024年1月18日就宣布与宝马合作,在其汽车制造工厂部署人形机器人。彼时推出的Figure 01已经能够自主完成部分现实世界的任务,3、根据官方发布的演示视频,许多网友认为 Figure 02 所展示的能力并没有上一代机器人发布时惊艳,对视频内容也褒贬不一。[22]① 有网友认为,Figure 02 外观设计更加利索,没有裸露线缆。虽然步行速度略慢,但其动作姿态在目前整体技术水平上属于合格。② 有网友认为,Figure 02总体乏善可陈,至少不能算跨时代的进展,让人好奇的机载VLM没有细节无法评价。4、此外,来自官方介绍的有关Figure 02 的续航能力存在差异,或者说「长短期目标」上的差异。[20] [21]① Brett Adcock称,Figure 02 躯干内的2.25千瓦定制电池组能够提供比上一代高50%的电量,他们希望 Figure 02 每天能够实现约 20 小时以上的有效工作。② IEEE Spectrum 给Figure发送了关于视频内容的问题,其中问到2.25 千瓦时的电池能让机器人运行多久时间,官方的回答为「先实现5小时(We are targeting a 5-hour run time for our product)」。比起大脑,Figure 02 这波更想先展示设计美感吗?[23] [21]虽然Figure当前公开的视频与资料没有展示太多软件层面的技术细节,但Figure 02的身上仍能看出该公司在机器人设计上投入的精力。基于有限的视频和公开资料,当前不乏有团队人对视频逐帧分析,试图解析Figure 02 的亮点。1、Brett Adock 强调了他们在布线上的成果,可以更加tighter packaging。根据视频,Figure 02在外观上确实较上一代有所提升,其身体曲线更加流畅,绝大多数线路均集成于机器人外壳内部,而裸露的关节都覆盖了柔性材料。2、文章分析称,Figure 02的脸部外观与特斯拉的擎天柱相仿,不再有上一代的工业机械风格,故而更符合消费市场审美,倾向人性化的外观设计。3、Figure 02 的脚部展示了一种创新的地面互动方法,侧面轮廓类似人类的脚部形状,能够穿鞋,但步态表现并不突出。4、机器人脚后跟与人类身体结构差异明显,但Figure 02的脚踝和脚跟之间存在间隙,可以进行旋转运动,类似人类的脚和脚踝扭动的效果。机器人脚底设计了纹理凸起,可以增强在地面上的牵引力。5、Figure 02的两条腿采用了对称设计,通过软件进行适应,并且可以更换,从而减少制造复杂性。① Figure团队在后续的媒体提问中同样承认了可更换的腿部设计是为了帮助制作。6、Figure 02 虽然在外骨骼上减轻了质量,但电池、摄像头、CPU/GPU带来的重量使总体净重上升至70千克,可能也是导致机器人步履蹒跚的原因之一。7、Figure 02 采用的第四代灵巧手是最鲜明的突破之一。英伟达具身智能项目GEAR负责Jim Fan在Adock推文下表示了对Figure制作高自由度灵巧手的认可。[24]① 机器人搭载了第四代机械手有 16 个自由度,并具有与人类相当的力量,整个手包含了机械、电气、控制和传感器等技术。② 机器手的指尖上带有橡胶握把凸起,手指长度不同,能够拇指相对。③ 机器手还采用了六边形3D打印结构,柔性状态转变为刚性状态,这种设计也让整体设计更贴近正常人手,且手指灵活性更高。① Figure 02的手臂关节执行器A2款扭矩50NM,对应的关节活动最大角度范围148°。② 下肢腿关节展示了2款旋转关节执行器:L1款扭矩150NM用在大腿靠近髋关节位置,关节活动最大角度范围195°;L4款扭矩150NM用在膝关节,关节活动最大角度范围135°。9、Figure 使用新型复合材料,膝盖或手臂肘关节附近新增的蜂窝状可压缩组织,提供运动缓冲,实现轻量化和强化散热性能。① 机器人手部的点阵式黑色表皮可能集成了触觉传感器,在提升触觉感知力的基础上同时增加摩擦力,以便抓握。10、除了Brett Adock 公布的内容,Figure的控制总监Michael Rose和硬件总监Vadim Chernyak对IEEE Specteum就视频细节的提问给出了回答,不少反馈反应了该公司对机器人外观的重视。如:① 脖子上的皮肤是为了整洁,即使机器人移动头部也能保持干净无缝的外观② 上半身和肩膀设计的比较窄是为了更像人,更好地融入环境③ 就机器人头部转动时,它的身体也会转动,并且手臂会移动,这一设计也是出于美学考虑。④ 膝盖后部和肘关节处那些看上去软软的东西是软限位器,除了美观,其实会用来限制运动范围,防止夹压。关于Figure 02 没有公开的技术都有哪些推测?[26] [27]根据公开情报,Figure 02 配备了机载VLM(onboard VLM),支持机器人摄像头进行快速常识性视觉推理;连接了定制的OpenAI大模型的内置麦克风和扬声器,实现与人的对话能力。虽然Figure 强调他们对硬件和软件进行了彻底的重新设计,但业内此前对上一代Figure 01的判断或多或少能反应出该公司的「隐藏内容」。1、出门问问创始人兼CEO李志飞团队曾在3月份发布文章,指出Figure机器人的技术原理与Google在2023年3月发布的PaLM-E和RT-1的pipeline组合相似,但不同于Google在2023年7月发布的端到端模型RT-2。① 上述推断原因在于,机器人与人类的自然语言交互可以分为两步:首先,机器理解自然语言并将其转换成抽象计划;其次,将这个抽象计划转换成具体的底层操控。② PaLM-E只是一个VLM模型,可以作为智能大脑,负责自然语言理解与规划,将复杂指令分解为简单指令,仍需要RT-1负责底层具体操控。③ RT-2 则是一个VLA(Vision-Language-Action Model)模型,可以把上述环节端到端集成,用复杂文本指令直接操控机械臂,中间不再需要将其转化成简单指令,通过自然语得到最终动作(Action)2、Figure机器人利用了大语言模型的常识和思维链COT(Chain of Thought)的能力,实现了接近人类速度的快速底层操控。