从「开城」到「无图」:大模型砸下来的钱好赚吗?
今年 5 月底,小鹏汽车在 AI Day 活动中,提出了国内首个量产上车的端到端大模型系统。何小鹏认为,「大模型对智能汽车的变革是颠覆性的,而非比例型的变化,不是百分之几十,而是数十倍的变化。」
同样是造车新势力的小米,在新车 suv7 的发布会上,也提出了全球首个应用到量产车的端到端感知决策大模型,将端到端大模型应用于自动泊车功能。
理想汽车也在昨天的 2024 中国汽车重庆论坛上宣布将在今年第三季度推出无图 NOA,并在今年年底或明年年初推出基于自研大模型和 VLM 视觉模型的 L3 级自动驾驶系统。
大模型「上车」,已然成为智驾车企们造车的新趋势。
VLM(视觉-语言模型)基于 AI 视觉大模型的感知能力加持,可以逐步降低激光雷达等传感器的重要性,满足更复杂场景环境感知的需求,从而增强自动驾驶系统的场景理解和规划能力。视觉-语言模型的「上车」带出了「无图化」智驾的趋势,智驾车企们的竞争赛已经从拼「开城」速度转向拼「无图化」技术落地。
然而,智能驾驶终归是一门生意。大模型「上车」这事儿能否量产才是最终关键。
解读要点
1. 小鹏、小米...国内车企为何争先布局 「VLM 上车」? 2. 从技术角度看,实现「无图化」这事儿有何难点? 3. 大模型「上车」离真正赚钱还有多远的路要走?
小鹏、小米...国内车企为何争先布局 「VLM 上车」?
1、小鹏汽车在今年 5 月底的 AI Day 活动中,提出了国内首个量产上车的端到端大模型系统,包括深度视觉感知神经网络 XNet、规划大模型 XPlanner 和大语言模型 XBrain 三个部分。何小鹏曾公开表示,「大模型对智能汽车的变革是颠覆性的,而非比例型的变化,不是百分之几十,而是数十倍的变化。」
2、小米在新车 suv7 的发布会上,提出了全球首个应用到量产车的端到端感知决策大模型,将端到端大模型应用于自动泊车功能,可实现 5cm 精度的极窄库位泊入和 23km/h 巡航的代客泊车。
3、蔚来、理想等车企也有一系列相关动作,同时,华为、百度等科技公司也与车企合作推出可“上车”的大模型或大模型解决方案。
4、实际上,「AI 大模型上车」主要分为智能座舱和驾驶控制两个方面,用于提高驾驶者的用户体验以及汽车的驾驶控制。智能座舱方面,车载语音助手和多模态交互是应用较多的两个形式。而 AI 智驾是更为关键的一部分。
① 传统的自动驾驶系统主要基于模块化,包括感知、预测和规划三个模块独立开发训练,依赖于人为设定的复杂规则设计,长尾长,且在复杂路况的情况下效果不佳。
② 而基于数据驱动的大模型端到端自动驾驶,可通过单个神经网络完成所有模块任务。中国工程院院士张亚勤认为,通过视频大模型,可根据环境、交通标志要素,结合车辆的控制、转向等驾驶行为生成大量可控视频,用于端到端自动驾驶的训练、测试,解决自动驾驶长尾场景数据积累问题。
③ 以 VLM(视觉-语言模型)为例,基于 AI 视觉大模型的感知能力加持,可以逐步降低激光雷达等传感器的重要性,满足更复杂场景环境感知的需求。同时,视觉大模型可以生成各种在自动驾驶场景下非常接近于真实的视频及各种传感器的输出,自动地产生模拟的环境等,对于自动驾驶技术的训练、测试、迭代有着关键性的推动。
5、利用 VLM 来增强自动驾驶系统的场景理解和规划能力,目前已成为智驾车企们造车的技术新趋势。而视觉-语言模型的「上车」则带出了「无图化」智驾的趋势,智驾车企们的竞争赛已经从拼「开城」速度转向拼「无图化」技术。
① 传统的领航辅助系统落地主要依赖于高精地图,是自动驾驶感知层核心部分,可以视作为一种具备「超视距」感知能力的传感器,将一堆精确的三维表征作为「输入」。但高精地图受限于信息的采集与更新,目前大部分图商只能做到 3 个月更新一次高精地图,同时采集信息成本高,并不适用于自动驾驶。
② 而「无图化」则是完全不同的思路,是一套类人脑的神经网络系统,采用 BEV(Bird's-eye-view,鸟瞰图视角)+Transformer 的技术架构来构建实时的局部地图。城市NOA(Navigate on Autopilo,导航辅助驾驶)是「无图化」落地的主要场景。
③ 去年 10 月,华为发布了不依赖于高精地图的高阶城区智驾,让「无图」城区智驾破圈;今年 3 月,方案商元戎启行推出「去图」的端到端智驾方案 DeepRoute IO;4 月,Momenta 推出 NVIDIA DRIVE Orin 智驾方案,不依赖高精地图,搭载了融合感知和规划的端到端智驾大模型。
从技术角度看,实现「无图化」这事儿有何难点?
1、从技术路线来看,国内车企、厂商基本上走的是主流的「Transformer+BEV」路线。2022 年,特斯拉又提出了 Occupancy 网络,即占用网络,将世界划分为微小(或超微小)的立方体或体素,预测每个体素是空闲还是被占用,能提供更精确的物体形状信息,对车理解复杂的场景和避免碰撞非常重要,降低了对激光雷达的依赖。紧随其后,部分厂商在 BEV+Transformer 算法架构的基础上选择性加入了 Occupancy 网络。
① 蔚来推出的智能驾驶架构 NAD Arch,包含 Lane 2.0 感知网络、 NADCloudM 云、 NADHVH 等算法模型应用。其中, Lane 2.0 可支持城区场景路口通行的实时感知, NADCloud M 可借助云端大模型,提升感知能力;而 NADHVN 可通过数据驱动的规划网络,使全域领航辅助 NOP+拥有更细腻的交互能力。
② 小鹏推出的 XNGP 高阶智能驾驶辅助系统基于端到端大模型系统,分模块化控制,包括深度视觉感知神经网络 XNet、规划大模型 XPlanner 和大语言模型 XBrain。其中,BEV 视觉感知系统 XNet 2.0 融合了行业最高精度的纯视觉占据网络,可实现动/静态 BEV、 占据网络三网合一。
③ 小米智驾推出的两套方案分别为 Xiaomi Pilot Pro 和 Xiaomi Pilot Max,Pro 是纯视觉的方案,Max 是视觉+激光雷达的方案。小米智驾采用的底层算法是主流的「BEV+Tranformer+占用网络」,其中,占用网络源自 23 年小米发表的一篇论文中提出的 Uni-OCC 技术路径,通过使用 Uni-OCC 降低了对 3D 像素识别的依赖,来大幅度降低识别成本。
④ 华为近期发布的解决方案「乾崑」,其中包括乾崑 ADS 3.0 高阶智能驾驶,采用了感知 GOD 大网,规控决策 PDP 端到端的架构,去掉了 ADS 2.0 中的 BEV。华为 ADS3.0 实现了全场景路况打通覆盖,但端到端保留了激光雷达,而不是纯视觉算法,保证全天候适应能力和小目标检测能力。
2、 尽管「AI 大模型上车」是未来实现自动驾驶的关键路径,但在现实「上车」中仍有很多难题亟待解决。
① 在感知方面,自动驾驶系统需要处理来自不同传感器的多种数据类型,如视觉、雷达和激光雷达数据等,数据具有不同时空性质,难点在于......
② 在规划决策方面,大模型加持的自动驾驶系统可能会错误地学习到数据中的表面相关性而非实际的因果关系,出现因果混淆的情况,导致在实际应用中......
从自动驾驶场景来看,以往的技术路线有哪些局限性?大模型上车后,能解决哪些问题?大模型「上车」能赚钱吗?智驾车企们离真正赚钱还有多远的路要走?...
订阅机器之心Pro会员通讯👇,查看完整解读
微信扫码关注该文公众号作者