今日arXiv最热大模型论文：北大发布4维时空数据预训练，助力自动驾驶

8月前

夕小瑶科技说原创
作者 | Richard

自动驾驶的世界里，汽车不再只是简单的代步工具，而是一个能感知环境、预判未来的"智能体"。但要实现这样的进化，仅凭单独识别车辆、行人等目标还远远不够，汽车还需要对周围的一切有全局认识，甚至要有"预知未来"的能力。听起来是不是有点像科幻片里的情节？别急，最新的研究 DriveWorld 正在把这一切变为现实！

这个名为 DriveWorld 的 AI 系统脑洞大开，它并没有在真实世界里四处游荡，而是在一个虚拟的 4D 世界里经历了大量的自我训练。在这个数字世界里，它见识了各种复杂的道路场景，领略了车水马龙的街道、变幻莫测的天气……通过对海量驾驶数据的自学习，它渐渐拥有了对周围事物的整体理解，并学会了预判接下来会发生什么。

这种在虚拟世界中积累驾驶经验的方式，就像是给自动驾驶系统装上了一双"慧眼"，让它能看到我们肉眼无法察觉的事物与变化。有了这样的预见能力，无人车就能更从容地应对复杂路况，带来更安全、更智能的出行体验。DriveWorld 用创新的思路为无人驾驶插上腾飞的翅膀，为车辆赋予"开天眼"的神奇能力。人工智能，让未来的道路充满无限可能!

论文标题：DriveWorld: 4D Pre-trained Scene Understanding via World Models forAutonomous Driving

论文链接：https://arxiv.org/pdf/2405.04390

人类驾驶VS自动驾驶，谁更胜一筹？

开车如"赌博"，险象环生难预料

对于人类驾驶员而言，开车是一项复杂而充满挑战的任务。驾车途中我们不仅要时刻关注车辆状态、操控方向盘和踏板，还要观察周围的车辆行人、道路标识、交通信号灯等，随时准备应对突发情况。尤其在视线受阻、天气恶劣、车流密集的复杂路况下，稍有疏忽就可能酿成事故。相信经常开车的朋友一定知道，人流密集的县城道路是最难行驶的。

开车时驾驶员面临的情况可谓变幻莫测，就像一场充满风险的"赌博"游戏。前方是否会有行人突然横穿马路？急弯路段是否会有车辆违规超车？暴雨天气路面湿滑，刹车距离会延长多少？这些都是驾车过程中随时可能遇到的未知风险。对于这些突发状况，哪怕是驾龄多年的老司机也很难做出100%准确的判断。

然而，交通事故的发生往往就在这一瞬间。关键时刻，驾驶员能否及时察觉危险、果断决策、快速反应，对于生命安全至关重要。这对驾驶员的经验、意识、反应都提出了很高要求，稍不留神就可能铸成大错。正因如此，很多人开车时如履薄冰，时刻担心"车毁人亡"的悲剧发生。尤其在高速路段，心理压力会更大。

无人车"短视症"，只见树木不见森林

当前自动驾驶汽车已经从科幻电影走进现实生活，在部分简单场景下实现了自动驾驶功能。然而在复杂路况下，要让无人车像人类老司机一样，对环境有整体认知、对风险有预判能力，仍有不小差距。

现有的自动驾驶系统，主要关注对车辆、行人、车道线等即时目标的感知和识别，缺乏对全局环境的整体理解力。它们就像一个"近视眼司机"，只能看到眼前的几米路，无法洞察前方潜在的危险。此外，当前的算法大多基于特定场景下的训练数据，泛化能力不足，难以应对"超纲"的复杂场景。道路千变万化，要为每种情况编写规则、收集数据,成本过于昂贵。

从认知科学的角度看，人类驾驶员凭借多年经验形成的"心理模型"，能够对周围环境进行整体评估，对未来变化做出预判。他们不仅关注眼前的路况，还能基于常识推理出潜在风险，提前做好应对准备。这种通过内在知识连接当下感知与未来预判的能力，是无人驾驶系统亟需具备的关键技能。

要让无人车胜任全天候、全路况的自动驾驶，仅靠单点突破、碎片化学习是远远不够的，必须学会融会贯通、举一反三的泛化智能。这就要求我们突破传统的训练范式，让算法像人类一样，在长期实践中习得内在的规律认知，形成完善的世界模型。

DriveWorld：自动驾驶界的"预言家"

神奇的"时空胶囊"，让无人车洞悉未来

要攻克自动驾驶的"预判鸿沟"，北京大学的最新研究给出了创新方案。研究团队提出了一种名为DriveWorld的自动驾驶4D表示学习框架。它利用多个车载摄像头采集的视频数据，在虚拟世界中对无人车进行大规模的自我训练，让其在"亿万小时"的驾驶体验中不断进化、升级感知预判能力。这种突破性的预训练方法，为自动驾驶系统装上了一双明察秋毫的"慧眼"和一颗洞若观火的"智脑"。下图是DriveWorld的整体框架，其主要包含以下模块：

多摄像头图像输入：DriveWorld利用车辆上多个视角的摄像头采集驾驶场景的视频片段,作为模型的输入数据。
图像编码器：该模块对输入的多视角图像进行特征提取,得到密集的图像特征表示。
2D到3D视图转换模块：该模块将提取到的2D图像特征通过一个变换模型(如Transformer或LSS)映射到3D鸟瞰图(BEV)视角下，得到统一的3D空间特征表示。
记忆状态空间模型：DriveWorld的核心模块，负责对3D空间特征进行时空建模。
解码器：负责根据记忆状态空间模型输出的特征，同时预测未来多个时间步的驾驶行为和对应的3D占用栅格地图。
任务提示：将不同下游任务的描述用预训练的文本编码器编码为语义表示，作为任务提示与图像特征融合，解耦不同任务所需的特征表示，提高模型的泛化能力。

DriveWorld的核心创新在于其独特的时空建模方法。它摒弃了将时间和空间割裂处理的传统做法，转而采用记忆状态空间模型(Memory State-Space Model)来统一时空表征学习。该模型包含两大关键模块：动态记忆库(Dynamic Memory Bank)和静态场景传播(Static Scene Propagation)。

动态记忆库模块的作用是学习时序感知的潜在动态特征。通过引入运动感知的层归一化和注意力机制，该模块能够捕捉场景中的动态变化，挖掘不同时间步之间的因果关联，形成对未来的预判。
静态场景传播模块则负责从空间维度建模潜在的环境上下文。它直接利用Bird-Eye-View(BEV)特征表征整个驾驶场景，保留丰富的空间结构信息。

两大模块互为补充,让DriveWorld形成了对周围世界全面、连贯的4D认知。

无人车也要"脱盲"？多任务学习来帮忙

成为一名全能司机，需要掌握环境感知、风险预测、决策规划等多项技能，并在实践中将其融会贯通。DriveWorld通过多任务协同训练，让无人驾驶系统学会了这一整套本领。

具体而言，研究人员在模型设计中融入了任务提示机制。它以预训练语言模型为桥梁，引入不同任务的语义描述，解耦不同任务所需的特征表示。面对不同任务需求，DriveWorld能够快速适配、灵活应变，展现出多才多艺的一面。

任务提示让DriveWorld在感知、预测、规划等关键任务上全面开花。它不仅能精准检测车辆、行人等即时目标，还能预判他们未来数秒的运动轨迹。同时，它还掌握了道路分割、可驾驶区域预测等语义理解技能，以及道路状态评估、碰撞风险预警等高层决策能力。多维技能的协同进化，让DriveWorld初步具备了类人的驾驶智能。

创新背后的"方法论革命"

DriveWorld之所以能在多个自动驾驶任务上取得瞩目表现，归功于其在方法论层面的重大突破。

首先，DriveWorld开创了虚拟世界中的自监督学习范式。有别于在真实道路上收集数据，它直接在虚拟环境中自主探索，通过海量的模拟驾驶积累经验。这不仅降低了数据采集成本，还让模型获得了更丰富、更极端的训练样本。

其次，DriveWorld实现了端到端的时空表征学习。传统方法往往将时间和空间特征割裂开来，导致信息损失。DriveWorld则以端到端的方式，统一建模时空依赖关系，让模型形成更全面、更连贯的世界认知。

此外，DriveWorld还引入了记忆机制和注意力机制。记忆机制让模型能长期保存和更新重要的环境信息，注意力机制则让其聚焦于关键线索。两者的结合大大提升了预测的准确性和时效性。

最后，DriveWorld独特的跨模态任务提示机制，以语言描述为桥梁，实现视觉与决策的无缝衔接。这让模型能够灵活地应对多个下游任务，体现出更强的泛化能力。

这些方法论创新彰显了DriveWorld在无人驾驶领域的引领地位。它开创的4D时空表征学习范式，必将在自动驾驶乃至更广泛的人工智能领域产生深远影响。

性能逆天！DriveWorld勇夺自动驾驶超级“大满贯”

DriveWorld不仅在理论上独树一帜，在实验中也以出色的性能验证了其有效性。研究人员在自动驾驶领域公认的nuScenes数据集上，将DriveWorld与现有SOTA方法进行了全面对比。这场算法界的"巅峰对决"涵盖了3D目标检测、语义/实例分割、轨迹预测等多项关键任务。无论在哪个任务上，DriveWorld都展现出了"一骑绝尘"的优势。

下图展示了各模型在3D目标检测任务的评估结果。可以看到，在mAP、NDS等关键指标上，DriveWorld都全面超越了之前的最优方法，提升幅度高达7.5%和6.8%。这意味着DriveWorld能够更加精准地检测出环境中的车辆、行人等关键目标，为下游任务提供更可靠的感知基础。

轨迹预测方面DriveWorld的表现同样亮眼。DriveWorld的平均和最终位移误差(minADE和minFDE)较之前最优方法分别降低了0.1m和0.11m，而失败率(MR)和成功率(EPA)也有明显改善。这表明，DriveWorld能更准确地预判交通参与者在未来几秒内的运动趋势，为危险预警、决策规划等提供可靠依据。

在线地图构建和区域分割方面，DriveWorld也交出了一份漂亮的"成绩单"。如下图所示，其在车道、可行驶区域、路沿等关键区域的分割精度均有2-5%的提升。文中进一步对DriveWorld生成的分割结果进行了可视化对比，可以看出其预测更加准确、完整，边界也更加清晰平滑。高质量的语义地图为自动驾驶提供了坚实的"地基"。

除了常规的评估任务，研究人员还特别设计了规划任务来考察DriveWorld的决策能力。DriveWorld生成的规划路径在1-3s未来时间段内的平均跟踪误差比之前最优方法降低了0.34m，碰撞率也大幅降低。这意味着，DriveWorld规划的行驶路径更加安全、平稳,能够充分避让障碍物。

值得一提的是，为了测试DriveWorld的泛化能力，研究人员还在一个更大规模的自动驾驶数据集SemanticKITTI上进行了实验。尽管该数据集在采集设备、场景内容等方面与nuScenes都有较大差异，DriveWorld依然取得了领先的性能表现。这充分证明了DriveWorld习得的驾驶技能具有很强的鲁棒性和适应性，能够应对更多变的交通场景。

下图以更直观的方式展示了DriveWorld在3D占用栅格预测任务上的优异表现。通过对比GT(ground truth)和DriveWorld在不同未来时刻的预测结果，可以看出DriveWorld能够准确预测车辆、行人、自行车等交通参与者的运动趋势，生成的占用栅格图与真值高度吻合。这为自动驾驶系统提前洞察危险、及时做出规划决策提供了重要依据。