Bendi新闻
>
特斯拉大裁员后的豪赌,FSD v12是如何诞生的

特斯拉大裁员后的豪赌,FSD v12是如何诞生的

7月前

上一次艰难时期的持续投入,成为特斯拉应对这一次艰难时期的武器。

文|贺乾明 编辑|黄俊杰

来源|晚点LatePost(ID:postlate

头图摄影|王超

裁员1万多人、大幅缩减重要项目4680电池团队、负责三电系统的高级副总裁等高管离职……特斯拉CEO埃隆·马斯克在4月15日发起的大调整,只是一个序幕。

之后半个月,特斯拉持续裁撤曾经的重点项目:4680电池项目继续裁员、北美的超级充电桩团队完全解散、9000吨以上一体压铸机项目被叫停,相关高管大批离职。接下来的6月,特斯拉还会在加州和得州两地裁员超过 6000人。

马斯克的新赌注是全自动驾驶。无人出租车(Robotaxi)项目被拔到最高优先级。马斯克宣布将在8月8日发布产品,今年投入百亿美元采购GPU、研发车载芯片,用于改进自动驾驶系统。他曾多次说过,只要持续迭代这套系统,就会实现无人驾驶,让特斯拉成为10万亿美元市值公司。

在特斯拉的第二大市场中国,马斯克也期望用这套系统翻盘。4月底,马斯克到访中国。不久后,他在内部信中说,特斯拉已在中国获得测试部分辅助驾驶系统的许可。

今年开始大面积推送的FSD v12自动驾驶系统确实展现出一些不同寻常的潜力。车主的反馈都很接近:“就像人开车一样”,跟上一代相比有进步,狭路会车、超车更从容。

自动驾驶公司元戎启行CEO周光今年3月在美国体验FSD v12后,承认还是低估了它的能力:“去之前我认为可能是80分的东西,但实际做到了90 分。”

一家国内一线新能源企业负责人体验后相信,特斯拉的自动驾驶会有革命性突破。竞争对手们不敢错过,仅4月底北京车展前后,小鹏、华为、长城、商汤绝影等公司宣布将推出类似FSD v12的自动驾驶系统。同期,软银、英伟达和微软用10.8亿美元投资与特斯拉路线相同的英国自动驾驶公司Wayve。

沿着特斯拉的路线,一场新的自动驾驶竞赛正在开启。这一次不只要解决技术难题,还是一场资源竞赛。来中国当天,马斯克在社交媒体上划出入局门槛:“任何公司,如果算力投入达不到百亿美元......就无法参与这一轮竞争。”

原理:砍掉30万行代码,让数据决定车怎么开

2000年代,DARPA在沙漠中举办的3场无人车挑战赛,是现代无人驾驶技术研发的源头。Google招揽了优胜者,蹚出一条可行的方案,将自动驾驶拆成多个环节:

用激光雷达、摄像头等传感器收集车辆周围环境数据,交给依赖人工标注数据训练出的模型,识别出常见的重要目标和各种障碍物(感知模块),再配合高精地图,让系统了解道路会怎么变化,最后依赖工程师用代码写成的规则决定车怎么开(预测、规划模块)。

最初,特斯拉也按照Google开辟的路径去做自动驾驶,为了节省成本和迅速扩大使用范围,他们开发依赖摄像头,而不是昂贵的激光雷达和高精地图的方案。推出v12前,特斯拉的自动驾驶系统工作流程大概是:

负责感知的视觉模块先工作,处理摄像头等传感器捕捉的路况数据,识别出路上有什么东西,大概怎么分布,哪些是动的,哪些是不动的,哪些是车道线,可以行车的区域有哪些等等。

然后是预测规划控制模块,调用感知模型处理过的信息,预测场景中人、车等动态目标接下来几秒如何行动,结合模型和工程师提前写入的规则,规划安全的行驶路线,再控制方向盘、加速或刹车踏板,照路线行驶。

特斯拉在2021年AI Day上公布的FSD系统架构。来源:特斯拉

为了尽可能应对路上遇到的各种情况,特斯拉数百名工程师写了30万行 C++代码制定规则——相当于早期Linux操作系统代码量的1.7倍。

这不是人学会开车的方式,人不需要认出一条路上可能出现的大量物体到底是什么,也不需要为每个复杂场景提前制定各种规则,就能开车上路。

这样做出来的自动驾驶系统,很难保证绝对安全。真实世界千变万化,再多的工程师也难以穷尽。现在商业化的无人出租车,只能在有限区域运营,车内没有安全员,只不过是运营方把他们转移到云端,远程盯着。

直到2021年,在路上遇到一排交通锥,Google无人驾驶子公司Waymo的无人车还是有可能停下来拒绝行驶。此时Google已经带着整个行业投入上千亿美元。一批公司在那两年关停已经耗资数十亿美元的无人驾驶项目。

“付出20%的努力,就能获得80%的能力。”小鹏原自动驾驶AI负责人刘兰个川去年在一场学术活动上说,传统自动驾驶方案开发简单,但继续提升困难。现在他加入英伟达智能汽车团队。

特斯拉FSD v12学开车更像人。最大的改变是用了“端到端”架构:一端输入摄像头等传感器获得的数据,另一端直接输出车该怎么开。

训练这套系统时,机器从大量车辆行驶视频和人类司机在不同环境下打方向盘、踩加速踏板的数据中学习怎么开车。

在FSD v12中,特斯拉工程师们写的规则几乎全被消灭,30万行规则代码仅剩2000多行,不到原来的1%。

端到端自动驾驶系统学开车的方式,也只是有一点像人,并没有系统能像人类一样真的理解世界。所以人学几天,就能开车上路安全驾驶,但FSD 要看海量的视频学习。马斯克去年在一次财报会上谈到数据有多重要:“用 100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow;到了1000万个,就变得难以置信了。”

“传统自动驾驶系统就像一个漏斗,信息一层层丢失。”一位自动驾驶算法工程师说,传统方案的感知阶段,工程师们通常会设置“白名单”,重点识别行人、车辆、车道线、红绿灯等重要目标,以节省算力。到了预测规划环节,工程师会提前设定,根据需求调用感知模块输出的信息完成工作,信息会再一次折损。因此传统方案很难像人一样用充分的信息决定怎么开车,要依赖工程师们提前写的规则。

而端到端方案中,摄像头等传感器获得的信息全部传递到决策环节,“信息无损传递,模型可以从感知数据中捕捉更多信息完成决策,提升系统应对各种复杂场景的能力。”上述自动驾驶算法工程师说,因为是端到端架构,模型的决策也会直接影响感知环节,让它之后捕捉更多人意识不到但对驾驶有帮助的数据。

在许多场景,特斯拉FSD v12都有明显提升。一位自动驾驶从业者(知乎 @EatElephant)告诉我们,他体验后感觉到,与v11相比,v12控制车辆的速度和转向“很丝滑”,“即使坐在后排,路口转弯时几乎感觉不到任何顿挫”。为了保证安全,传统自动驾驶方案行车时,会时不时带下刹车。

他在一篇文章中写道,面对右前方有人骑自行车的场景,“v11会过度小心,规划出一条非常离谱的大幅绕行路线,v12从容淡定,绕行幅度接近人类司机的选择,速度控制和果断程度也非常合理。”

那些难以用规则描述的场景,FSD v12的应对方式有明显进步。他举例,比如遇到路边开着双闪的亚马逊送货卡车,能迅速判断对向无车,立即借道绕行。而传统的方案大多数情况下都会停下来,或者等一段时间才会考虑采取行动。

FSD v12.3更新推送后,一批车主在YouTube上传了车辆从容应对各种复杂路况的视频,比如晚间穿越拥挤的纽约第五大道,30分钟全程没怎么碰方向盘。

面对兴奋的车主们,美国公路交通安全管理局在5月6日发函要求特斯拉详细说明,如何防止车主滥用辅助驾驶系统,比如怎么提醒驾驶员“把手放在方向盘上”。


基础:最难的几年依然坚持预装硬件、研发芯片、采集数据

2018年初,特斯拉深陷产能危机、面临生死考验时,马斯克发邮件给 OpenAI管理层,希望OpenAI并入特斯拉,共同研发“基于大规模神经网络训练的全自动驾驶方案”。

他认为,AI研发需要巨资,而OpenAI需要建立盈利模式才能与巨头抗衡。而特斯拉已经用Model 3和其供应链打造了火箭的“第一级”,如果OpenAI 能够并入特斯拉,将会加速无人驾驶研发,打造火箭的“第二级”,特斯拉会因此卖出更多车,OpenAI也会有足够的收入开展人工智能研究。

马斯克的提议被拒绝,最后退出OpenAI董事会。但在此之前,他就已经从 OpenAI挖来安德烈·卡帕蒂(Andrej Karpathy),负责自动驾驶技术研发,带队训练效果更强的模型。

多位自动驾驶从业者认为,卡帕蒂加入特斯拉是其研发v12版端到端自动驾驶模型的开端。

1986年出生的卡帕蒂,是过去十多年人工智能浪潮的亲历者,也是从中成长起来的人工智能科学家。他2011年在斯坦福大学读博士期间和导师李飞飞一起完善催生AlexNet的ImageNet竞赛数据集,在各个学术会议上发表数篇计算机视觉论文,在斯坦福大学开设了第一门深度学习课。博士毕业后,他是最早一批加入OpenAI的人。

2017年11月,卡帕蒂发布著名的《软件2.0》文章,称“软件吞噬世界,而人工智能为基础的软件2.0正在吞噬软件”。那时经过大量数据训练的计算机视觉模型,识别物体的准确率超过人眼。AlphaGo从数据中学到了击败人类围棋冠军的方法。

他相信,靠着大量数据,人工智能在大部分有价值的垂直领域,“至少在涉及图像/视频和声音/语音的领域,比你我能想出的任何代码都要好”。

在卡帕蒂到来前,特斯拉已经完成了自动驾驶的数据基建。

用大量数据训练更强的模型,是非常适合特斯拉的技术发展路线。但特斯拉要投入大量资源研发自动驾驶技术,马斯克从不缺乏冒险的决心。

2016年开始,每一辆出厂的特斯拉汽车都搭载能运行Autopilot辅助驾驶系统的硬件,花钱买了软件才能开启功能。到现在也没几个汽车品牌会这么做,更常见的做法是把同一款车分成不同的版本,把搭载自动驾驶硬件车型卖给感兴趣的客户。

标配辅助驾驶的时候,特斯拉启用“影子模式”(Shadow Mode),就算驾驶员不购买Autopilot功能,这套系统也会在后台运行,记录行车数据、规划行车路线。马斯克当时接受采访说,它的作用是证明系统比人可靠,为监管机构批准技术提供数据支撑。

卡帕蒂加入后,影子模式成为特斯拉获得训练模型数据的核心来源——当系统选择的路线与驾驶员的选择有明显偏差时,就会触发数据回传机制,系统会自动记录摄像头捕捉到的数据、车辆行驶数据等,等到连接WiFi后上传到特斯拉的服务器中。到2018年底,特斯拉就靠这套系统采集16亿公里数据,超过现在绝大多数研发自动驾驶技术的车企。

特斯拉的自动驾驶团队把大部分精力放到数据上,搭建了一套数据处理系统,专门分析、筛选收集到的数据,一开始用人,后来绝大部分数据用机器打标签,然后喂给模型,持续改进自动驾驶系统。为了用大量数据训练模型,特斯拉在2019年之前,就采购大量GPU建设名为Dojo的算力中心,并持续扩大,到现在已经积累了等同3.5万张H100的算力。

资料来源:特斯拉财报

2019年4月,特斯拉发布HW 3.0硬件,搭载两颗FSD第一代芯片,算力达到144 TOPS,是当时英伟达车载芯片Xavier的近7倍。和过去一样,不论用户是否购买辅助驾驶系统,特斯拉都会将这套硬件装到每一辆特斯拉车上,而且免费帮买了辅助驾驶系统的老用户升级。

“不仅让我们能够更快地运行当前的神经网络(模型),更重要的是,它允许我们在车上部署更大、计算成本更高的模型。”卡帕蒂说。HW3.0也是特斯拉现在能大规模推行FSD v12系统的基础。

特斯拉搭建这套基础设施的时候,也是它开始量产车辆以来资金最紧张的一段时间。从2017年到2019年初,特斯拉都深陷Model 3产能危机。

到2019年3月,特斯拉的现金储备只剩22亿美元,只够再烧不到半年。《马斯克传》记录,当时马斯克对妻子说,“我们必须筹集到资金,否则就完蛋了。”

马斯克想了几夜后,决定面向投资人办一场活动,即特斯拉“自动驾驶日”。他告诉华尔街的投资人,无人驾驶汽车未来能帮特斯拉实现巨额盈利,接下来一年多时间会部署100万辆无人出租车,重塑人们的日常生活。

没人相信特斯拉的无人驾驶能很快到来。这场活动结束一个多月,特斯拉股价跌了30%。靠着Model 3产能顺利扩大,上海工厂迅速建成,特斯拉才缓了过来。但接下来的5年,是特斯拉自动驾驶基础技术进步最快的阶段。


实现:从模拟人眼开始,一步步扩展到整个系统

看视频学开车的道理听起来很简单,但中间需要解决无数问题。

2020年到2022年,特斯拉每年都会公开一版“感知”模型,每个版本都朝着模拟“人眼”更进一步。

2020年2月,卡帕蒂在一场学术会议上展示了特斯拉训练48个神经网络组成的“多任务模型”HydraNet,可以识别1000多个目标,比如汽车、自行车、车道线、学校区域等。

HydraNet用微软亚洲研究院2015年发布的ResNet模型当主干,提取车身周边8个摄像头所捕捉画面的通用特征,交给不同的算法分支完成不同的任务。这么做可以避免用不同的模型重复从相同的画面提取特征,节省算力。

这是当时学术界和多数开发大型计算机识别系统公司的选择,特斯拉把它做得规模更大,并实现工程化。但这么做有局限。HydraNet只能从不同角度的摄像头捕捉的画面中各自提取信息,摄像头可能只会捕捉到周边物体的一部分。就像新手司机很难靠后视镜流畅倒车入库一样,自动驾驶系统也很难靠它实现真正的无人驾驶,还得靠各种雷达、高精地图辅助。

不用激光雷达的卡帕蒂团队选择使用一系列算法,将8个不同方向的摄像头收集的画面拼成一个360°的鸟瞰图(Bird's Eye View,即BEV)模式,再让模型“理解世界”,规划行车路线。但想让这套系统效果良好,得尽量保证地面是平的,而且车周围环境要简单,否则系统就难以准确理解不同摄像头看到的图片之间有什么关联。

“当我们用它实现FSD时,很快发现达不到预想中的效果。”安德烈·卡帕蒂在2021年特斯拉AI Day上说。他介绍了用Transformer架构开发的新版模型,能准确地把跨越多个相机的目标拼得更准确、稳定。

而且利用Transformer架构做成的模型,输出的信息可以直接用到后续的预测规划模块,也为FSD v12做成端到端模型打下基础。

与新模型配合,卡帕蒂还分享了一个名叫“Spatial RNN”的架构,用视频训练模型时,模型能获得短暂的“记忆”能力,理解周围的场景如何随着时间变化,从而具备脑补摄像头视野盲区、实时构建局部地图的能力。

这次技术迭代,让特斯拉的辅助驾驶系统不用高精地图也能把车开好,再一次推高自动驾驶的能力上限,向人眼靠近。

等到2022年特斯拉AI Day举办时,卡帕蒂已经离开特斯拉。特斯拉的自动驾驶系统继续迭代,继任者阿肖克·埃卢斯瓦米(Ashok Elluswamy)介绍了“占用网络”(Occupancy Network),在Transformer架构基础上引入 “高度”要素,能把不同角度摄像头捕捉到的画面还原成3D场景,计算出一个物体在空间中占用多少点,从而推断出它的形状。

借助Occupancy Network,特斯拉的自动驾驶系统不用激光雷达,只靠摄像头收集信息,就可以识别出它没有见过的障碍物,被视为“纯视觉方案” 的胜利。

特斯拉多年研发,终于实现马斯克多年前提出的第一个要求:人靠双眼就可以识别、还原3D环境,车靠摄像头也应该可以。

特斯拉Occupancy Network识别车辆周围障碍物。来源:特斯拉

在这个过程中,特斯拉还在逐步尝试让神经网络决定车怎么开。在2021年的AI Day上,特斯拉就展示了用大量数据训练出来的“神经网络规划模型”,当时只是作为辅助,为最终的规划决策模块提供参考。到v12版本,神经网络正式接管预测规划模块,完成端到端拼图。


疑问:自动驾驶现在能不能有Scaling Laws

FSD v12距离真正的无人驾驶还有距离。像ChatGPT一样,它有闪光时刻,但也常犯错。广受好评的v12.3版本上线后,车辆时有撞到马路牙、损坏轮毂的低级错误。而在上一代方案中,很少会出现类似的情况。

特斯拉也没敢全面依赖v12。一位特斯拉车主从FSD的软件包中发现,v12仅适用于城市街道,高速场景还是用v11。

“端到端系统的下限其实很低。”一位自动驾驶工程师说,高速行车速度更快,规则更简单,经过长期打磨的传统方案可能比当前的端到端方案更安全。“只有把端到端方案下限提上来,处理简单场景比原本方案更好,才是真正的性能提升。”

“端到端的模型上线之前一定会有‘护栏’。它像是未来会成为博士的学生,但成长过程中需要小学、初中老师去带,需要时间成长。”英伟达汽车事业部负责人吴新宙认为端到端模型成为主流之前,还需要和原有模型配合工作,保证安全。

马斯克愿意更快一点。今年4月,马斯克在一季度财报会上说,他们可以看到三四个月后的模型效果,已经可以称为FSD v13,“比当前车上的版本更强,但有一些问题需要解决”。

他相信特斯拉已经找到适用于自动驾驶的“Scaling Laws”(规模定律):只要继续扩大模型参数、投入更多数据和算力,不断改进模型架构,就会有更好的效果。

过去多年,Scaling Laws被视为OpenAI有底气开发规模更大、效果更好模型的秘诀。而自动驾驶所在的计算机视觉领域,因为训练模型需要的数据是与物理世界中相关的视频,需要模型理解更多物理规则,许多研究者担心,用更多的数据、算力训练更大的模型,会陷入瓶颈,能力不会提升,反而会下降。

“我们可以根据过去的趋势估算未来的进展,从过去的数据来看,估算通常都是正确的。”埃卢斯瓦米在财报会上说,特斯拉每周都会训练数百个能够生成不同驾驶路线的模型,再拿从用户和测试人员那里收集的数百万视频片段测试,如果效果更好,就会给专门的路测团队和员工测试,最后推送给更多用户,迭代速度会越来越快。

我们了解到,特斯拉的v12系统目前并不能像GPT-4等语言大模型那样,可以解答训练数据中没有的问题,还要从大量的数据中学习如何应对复杂场景。

随着模型能力提升,改进模型需要的数据更多。马斯克说,每10000 公里的行驶数据,只有1公里能训练模型,而且每训练一遍,都需要消耗大量算力。

这对于特斯拉不是问题。路上数百万辆特斯拉车可以源源不断为它提供各种各样的数据。特斯拉还在开发更强的仿真系统,生成各种数据训练模型。去年的计算机视觉学术会议CVPR上,埃卢斯瓦米展示了特斯拉用收集来的数据训练成的“世界模型”(World Model),它可以根据提示词和过去的视频,生成汽车继续向前开会经历什么场景的视频,比如不同视角的摄像头中,车道线怎么延续,路口怎么变化。

但建立在端到端架构上的自动系统,是一个“黑盒子”,就连它的创造者都搞不清楚它如何把一堆数据变成结果。人们能做的,是给它处理好的数据,让算法自己提炼规律,并依此处理新的数据。如果出了问题,就给它更多的数据,让它自己修正。

这不是自动驾驶独有的问题,任何使用深度学习的应用都一样。只是人们不那么在意抖音的算法推给你几个不感兴趣的视频,也能忍受ChatGPT有时“胡说八道”,但非常在意2吨重的汽车为什么在道路上失常。

“它可能会‘无声地失败’,当问题爆发出来时,通常难以分析和排查,因为模型已经变得非常庞大。”卡帕蒂在《软件2.0》文章中谈到了缺陷,这会是一个选择题:“用我们理解的、效果达到90%的方法,还是我们不理解、效果达到99%的模型。”

特斯拉已经用行动做出选择。他们相信,采用端到端神经网络、经过数十亿公里现实世界数据训练的纯视觉模型,是实现大规模无人驾驶的正确方法。

马斯克给自动驾驶团队下达的命令是,想尽办法提高FSD v12不需要人类能够行驶的距离。他们在办公室放了一面锣,每解决一个问题,锣就会响一次。马斯克认为,只要有确凿的数据证明,自动驾驶比人开车更可靠,就不会有太多监管障碍。

过去几个月,特斯拉降低FSD价格、让美国的车主免费试用,激进地把v12 版本推向市场,一个季度就行驶5亿公里。

从特斯拉开始研发辅助驾驶系统以来,马斯克就对无人驾驶极其乐观。2016年,特斯拉第一次在车辆周围放置了8颗摄像头,拥有360°视角,马斯克就安排团队精心准备视频,宣扬无人驾驶即将到来。

之后每隔一两年,马斯克就会更新一次无人驾驶即将到来的时间表,然后被证明是过于乐观。但每一次,自动驾驶技术又会往前多走一步。

新闻热线&投稿邮箱:[email protected]

END 

值班编辑:王怡洁  审校:张格格  制作:黄福宇

关注“中国企业家”视频号

看更多大佬观点和幕后故事


[ 推荐阅读 ]


微信扫码关注该文公众号作者

来源:中国企业家杂志

相关新闻

特斯拉大裁员后的豪赌,FSD v12 是如何诞生的特斯拉大裁员后的豪赌,FSD v12 是如何诞生的|TECH TUESDAY格力诉米家电风扇侵权获胜,特斯拉FSD区别对待,今日资本否认退出一级市场,传戴森将在英国裁员近三分之一,这就是今天的其他大新闻!最新!特斯拉万人大裁员涉及中国市场,销售部门是重灾区!马斯克:每5年就要进行一次彻底的组织改革!裁员影响消费者?特斯拉门店回应德风科技王清杰:工业互联网的「国产高替」是如何诞生的?|创业内幕美国芯片股「泡沫」是如何诞生的?将于何时破灭?中国互联网,是如何诞生的?备受始祖鸟青睐的松赞是如何诞生的?3年3个100的国资CVC是如何诞生的?预计容纳 35 万颗 H100!训练 Llama 大模型的基础设施是如何搭建的旅游第一大省是如何炼成的?对话林咏华:刚在“AI春晚”上开源了3.4T数据集的智源,是如何死磕大模型数据难题的什么是大语言模型?它是如何运作的突然爆雷,10万员工瑟瑟发抖!芯片巨头宣布大裁员 CEO:这是非常艰难的一天30岁后,人和人的差距是如何拉开的?“刚知道原来妈妈以前是大小姐!”你结婚后最大的改变是什么?爬藤热的背后是绝大多数不快乐的孩子!如何给青少年做心理赋能央行最新发声! 事关国债; 利好! 中国资产大涨, 特斯拉盘后涨超11%; 这样的家庭每月补助1970元→无论如何,奈飞版《三体》肯定会是2024的年度大美剧恒大被清盘!中国房地产危机是如何影响加拿大的?悲剧!90后清华谷歌工程师在美身亡!血腥裁员下,我们的孩子如何不被AI淘汰?律所如何降本增效?99%的律所都将是大模型使用者2024美国奶茶大盘点!喜茶开到美国后,谁将是你心中的奶茶 top1专家称高铁涨价是必要的,花钱可解锁特斯拉续航,索尼绑定PSN惹众怒,谷歌新验证系统不支持火狐,这就是今天的其他大新闻!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。