自动驾驶静态障碍物感知方法

张开发
2026/4/13 19:03:17 15 分钟阅读

分享文章

自动驾驶静态障碍物感知方法
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | 高毅鹏编辑 | 自动驾驶之心原文链接https://zhuanlan.zhihu.com/p/2024469168322265851本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球一、引言二、技术演进历程2.1 离线高精地图时代2022年以前在2022年之前自动驾驶行业高度依赖预采集的离线高精地图。这一时期的技术特点包括采集方式组建专业的数据采集车队搭载高线数激光雷达、高精度定位系统RTK等昂贵设备对目标区域进行系统性扫描。建图流程采集得到的点云数据通过SLAM同步定位与地图构建技术进行配准融合随后由人工标注员在融合后的全局点云上进行地图元素的精确标绘。精度追求追求厘米级的几何精度满足车道级定位的需求。核心缺陷建图成本高昂、更新频率低月级甚至季度级更新、覆盖范围有限、无法应对道路临时变化。2.2 无图智驾与轻量化地图时代2023-2024年2023年开始行业逐步转向“无图智驾”方案利用在线生成的矢量地图结合轻量化地图LD Map实现自动驾驶。这一阶段的技术特征为在线建图成为主流通过车载传感器实时生成局部矢量地图不再依赖预采集数据。轻量化地图辅助保留拓扑关系和语义属性等核心信息大幅减少数据量实现快速更新。算法端到端化从传统的分割后处理范式转向端到端深度学习框架。2.3 实时生成与智能感知时代2025年后面向2025年及未来技术发展呈现以下趋势生成式地图利用3D高斯3DGS、神经辐射场NeRF等技术实现动态环境建模。世界模型融合将世界模型World Models引入地图构建实现从“记录过去”到“预测未来”的跨越。端到端一体化感知、建图、预测、规划逐渐融合为统一的大模型。三、核心感知技术框架3.1 HDMapNet开山之作HDMapNet是静态道路结构感知领域的开创性工作首次提出了局部在线地图构建的完整框架。其技术架构包含以下核心模块多模态特征提取HDMapNet同时处理环视摄像头图像和激光雷达点云两种数据源。图像分支通过卷积神经网络提取透视视图特征随后通过神经视角转换模块将特征映射到鸟瞰图Birds Eye ViewBEV空间点云分支则通过体素化Voxelization和PointPillars编码器提取特征同样转换到BEV空间。BEV解码与融合来自相机和激光雷达的BEV特征在解码器中进行融合输出统一的BEV特征表示。三大预测分支语义分割分支识别每个像素属于哪种道路元素类别实例嵌入分支为每个像素生成高维向量以区分不同实例如不同的车道线朝向预测分支预测道路元素的延伸方向。后处理与矢量化通过实例聚类算法将同一实例的像素聚合结合预测的朝向信息生成最终的矢量化地图元素。HDMapNet的主要贡献在于首次验证了在线建图的可行性但其采用的后处理流程较为复杂推理速度受限。3.2 VectorMapNet端到端矢量化先驱核心解读VectorMapNet 让自动驾驶车通过摄像头和激光雷达直接输出矢量格式的局部高精地图而不是像素图片。系统架构VectorMapNet ── 问题定义 │ ├── 输入多摄像头图像 激光雷达点云 │ ├── 输出矢量格式局部 HD 地图 │ └── 优势端到端、无需后处理 │ ├── 核心创新 │ ├── 点集表示 polyline │ ├── 两阶段检测粗→细 │ └── 自回归生成点序列 │ ├── 架构组成 │ ├── BEV 特征提取器 │ │ ├── CNNs图像 │ │ ├── PointPillars点云 │ │ └── IPM Voxelization │ │ │ ├── Map Element Detector │ │ ├── Element Query 设计 │ │ ├── Transformer Decoder │ │ ── Deformable Attention │ │ │ └── Polyline Generator │ ├── 细化几何特征 │ ├── 自回归点序列生成 │ └── EOS 结束标记 │ ├── 训练目标 │ ├── L_det检测损失 │ │ ├── 关键点位置 │ │ └── 元素分类 │ │ │ ── L_gen生成损失 │ └── 点序列概率分布 │ └── 输出格式 ├── Drivable Area可行驶区域 ├── Boundary边界 ├── Ped Crossing人行横道 └── Divider车道分隔线什么是矢量地图| 用点序列表示道路元素车道线、路沿等而不是像素网格。例一条车道线 [(x1,y1), (x2,y2), (x3,y3)...] | ✅ 矢量 数学坐标✅ 紧凑、精确✅ 适合规划系统使用为什么用 polyline| polyline折线由点构成点的顺序天然表示方向。Planner规划系统接口方便。 | ✅ 点集表达灵活✅ 方向信息内置✅ 接口友好整体流程是什么| 传感器数据 → BEV 特征 → Map Element Detector → Polyline Generator → 矢量地图 | ✅ 两阶段检测✅ 先框架后细化怎么训练的| Loss 检测损失 生成损失检测关键点位置 分类生成点序列概率分布 | ✅ 多任务联合优化✅ 自回归生成3.2.1 技术拆解(a) BEV 特征提取器多摄像头图像 激光雷达点云 ↓ 转换到鸟瞰视角BEV ↓ 统一特征表示为什么是BEV视角因为地图是俯视的这样最直观。(b) Map Element Detector地图元素检测器输入BEV 特征 Element Query查询向量 ↓ Transformer Decoder ↓ 输出关键点位置 元素类型Element Query 是什么相当于探针主动去图里找道路元素每个 Query k 个关键点的向量表示每帧最多 N_max 个 Query防止过多关键点表示方式(c) Polyline Generator折线生成器输入检测到的元素框架 ↓ 自回归生成点序列 ↓ 输出精细的矢量坐标自回归是什么意思像写字一样一笔一划生成生成第 n 个点时已经知道前 n-1 个点公式p(整条线) p(点1) × p(点2|点1) × p(点3|点1,点2) × ...3️⃣ Loss 函数设计总 Loss 检测 Loss 生成 Loss 检测 Loss 关键点位置误差 分类误差 生成 Loss 生成点序列的概率对数似然直观理解检测 Loss惩罚找错位置或认错类型生成 Loss惩罚画得不像3.3 MapTR实时SOTA方案MapTR V1系统架构图┌─────────────────────────────────────────────────────────┐ │ MapTR v1 架构 │ ├─────────────────────────────────────────────────────────┤ │ │ │ 传感器数据 (摄像头 激光雷达) │ │ ↓ │ │ ┌─────────────────┐ │ │ │ Map Encoder │ 2D 图像 → BEV 特征 │ │ │ (Backbone) │ 点云 → BEV 特征 │ │ └────────┬────────┘ │ │ ↓ │ │ ┌─────────────────┐ │ │ │ BEV Features │ 256×256×256 鸟瞰特征图 │ │ └────────┬────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ Map Decoder (Transformer) │ │ │ │ ┌─────────────┐ ┌─────────────┐ │ │ │ │ │ Instance │ │ Point │ │ │ │ │ │ Query │────▶│ Query │ │ │ │ │ │ (元素级) │ │ (点级) │ │ │ │ │ └─────────────┘ └─────────────┘ │ │ │ └─────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ Hierarchical Bipartite Matching │ │ │ │ Layer1: 实例级匹配 (分类 位置) │ │ │ │ Layer2: 点级匹配 (点序列对齐) │ │ │ └─────────────────────────────────────────────────┘ │ │ ↓ │ │ 输出矢量地图 (ped crossing, divider, boundary) │ │ │ └─────────────────────────────────────────────────────────┘核心创新点用 点集 (Point Set) 统一表示所有地图元素车道线、边界、人行横道Polyline开放形状 点序列Polygon封闭形状 点序列首尾相连 | ✅ 点集表示统一✅ 方向灵活性位置关系之间的不变性✅ 端到端输出Instance Query: 检测元素Point Query: 精细坐标✅ 两层次 Query✅ 分层匹配策略预测Ŷ {ŷ₁, ŷ₂, ..., ŷₙ} (每个ŷ 点集 类型) 真值Y {y₁, y₂, ..., yₘ} Step 1: 实例级匹配 ┌────────────────────────────────────────────┐ │ 找哪个预测对应哪个真值元素 │ │ min Σ [L_Focal(分类) L_position(位置)] │ │ 类似这是车道线还是边界 大概在哪 │ └────────────────────────────────────────────┘ ↓ Step 2: 点级匹配 ┌────────────────────────────────────────────┐ │ 在实例匹配基础上对齐点序列 │ │ min Σ D_Manhattan(点坐标) │ │ 类似这条线的每个点精确位置 │ └────────────────────────────────────────────┘Loss 函数设计 | L λL_cls αL_p2p βL_dirL_cls: 元素分类L_p2p: 点间距离ManhattanL_dir: 方向一致性cosine similarity✅ 多任务联合✅ 几何 语义MapTR V2v2 相比 v1 改进什么┌─────────────────────────────────────────────────────────┐ │ MapTR v2 vs v1 改进对比 │ ├─────────────────────────────────────────────────────────┤ │ │ │ 1️⃣ 增加 centerline 元素类型 │ │ ┌──────────────────────────────────────┐ │ │ │ v1: ped crossing, divider, boundary │ │ │ │ v2: centerline (车道中心线) │ │ │ │ → 更丰富的地图语义 │ │ │ └──────────────────────────────────────┘ │ │ │ │ 2️⃣ Decoupled Self-Attention (解耦自注意力) │ │ ┌──────────────────────────────────────┐ │ │ │ v1: 全局自注意力计算量大 │ │ │ │ v2: 实例内计算实例间分离 │ │ │ │ → 计算量↓ 效率↑ │ │ │ └──────────────────────────────────────┘ │ │ │ │ 3️⃣ 辅助头监督 │ │ ┌──────────────────────────────────────┐ │ │ │ 在 Decoder 中间层加监督信号 │ │ │ │ → 梯度传播更好收敛更快 │ │ │ └──────────────────────────────────────┘ │ │ │ │ 4️⃣ 分层级 Query Embedding │ │ ┌──────────────────────────────────────┐ │ │ │ qᵢʰᵉ qⁱⁿˢ qⱼᵖᵗ │ │ │ │ 实例 Query 点 Query 融合 │ │ │ │ → 更好的层次表示 │ │ │ └──────────────────────────────────────┘ │ │ │ │ 5️⃣ 固定方向编码 │ │ ┌──────────────────────────────────────┐ │ │ │ 线性元素使用固定方向 │ │ │ │ → 减少学习难度更稳定 │ │ │ └──────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────┘ #### Decoupled Self-Attention 详解 v1 的 Self-Attention: ┌────────────────────────────────────────┐ │ 所有 Query 互相计算注意力 │ │ 计算量O((N×nᵥ)²) │ │ N实例数nᵥ每实例点数 │ │ → 计算爆炸 │ └────────────────────────────────────────┘ v2 的 Decoupled Self-Attention: ┌────────────────────────────────────────┐ │ 1) 实例内自注意力 │ │ 每个元素的点之间计算 │ │ 计算量O(N × nᵥ²) │ │ │ │ 2) 实例间自注意力 │ │ 不同元素之间计算 │ │ 计算量O(N²) │ │ │ │ 总计算量O(N × nᵥ² N²) O((N×nᵥ)²)│ │ → 效率提升显著 │ └────────────────────────────────────────┘增加 centerline 元素类型Decoupled Self-Attention减少计算辅助头监督分层 Query Embedding固定方向编码✅ 效率提升✅ 精度提升✅ 元素更丰富四、地图元素表示方法地图元素的表示方法直接决定了建模精度和学习难度。当前主流方法分为三大流派4.1 点集表示方法代表模型MapTR、MapTRv2核心思想将地图元素离散化为一组有序点集通过“排列等价”的概念消除点序定义的歧义。技术特点采用层级查询实例级查询 × 点级查询并行回归所有点的坐标能统一建模折线和多边形均匀采样可能导致复杂弯道细节丢失。4.2 曲线表示方法代表模型BeMapNet、PivotNet核心思想使用数学曲线显式建模道路几何形状。技术细节BeMapNet使用分段贝塞尔曲线头通过控制点显式建模平滑曲线PivotNet基于关键点驱动将点级表示转换为实例级掩码。优缺点能精细建模复杂曲线形状但需要额外的几何先验知识。4.3 混合表示方法代表模型HiMap、MapVR核心思想结合点级和实例级的优势。技术特点HiMap采用点级与实例级双向交互学习利用双向注意力机制MapVR输出矢量化结果的同时结合可微光栅化添加分割监督信号。发展趋势混合表示正在成为2024年的主流趋势。4.4 2024年表示方法创新MGMapCVPR 2024掩码引导学习通过学习到的掩码在多尺度BEV特征中精确定位。GeMapECCV 2024几何约束学习端到端学习欧式几何形状及其关系平行、垂直、矩形首次在Argoverse2数据集上突破70% mAP。MapQRECCV 2024增强查询集设计采用“散发与聚集”策略深度挖掘实例级查询的信息。ADMapECCV 2024抗干扰框架专门针对遮挡、恶劣天气等干扰场景。五、时序建模与增量建图5.1 时序融合的必要性单帧推理在遮挡和远距离场景下表现受限。通过融合历史帧信息时序建模可实现更稳定的在线建图减少单帧噪声影响更好的遮挡恢复能力更长的感知距离地图元素ID的跨帧一致性5.2 StreamMapNet流式融合方案StreamMapNet引入了时序融合机制通过记忆缓存利用历史帧信息。核心组件多点注意力Multi-Point Attention突破标准可变形注意力的局部感受野限制有效捕捉长条形地图元素记忆缓存Memory Buffer存储历史帧的BEV特征和传播查询。姿态对齐通过自车位姿变换对历史特征进行对齐融合。5.3 MapTracker跟踪范式MapTracker将地图构建表述为跟踪问题通过跟踪确保地图元素ID的跨帧一致性。长时记忆维护跨越20帧的历史记忆利用跨步记忆融合Strided Memory Fusion。跟踪真值引入额外的跟踪标注确保时序稳定性。性能提升在nuScenes数据集上mAP提升8%一致性mAPC-mAP提升19%。5.4 其他时序方法SQD-MapNet流式查询去噪通过在传播查询中加入噪声并进行去噪训练增强对累积误差的鲁棒性。MemFusionMap工作记忆融合仅使用4帧历史信息即实现显著性能提升。HisTrackMap2025综合方案结合全局矢量化地图构建与历史跟踪融合。六、拓扑推理技术6.1 从几何感知到拓扑推理仅仅感知车道的几何形状是不够的系统必须理解车道间的连接关系、语义属性以及与交通控制元素的交互。拓扑推理是规划模块的核心直接关系到驾驶的安全性和系统泛化能力。6.2 拓扑关系分类车道-车道拓扑Lane-Lane Topology关注车道之间的连通逻辑。前继/后继Successor如Lane_A - Lane_B左右相邻Adjacent如Lane_A - Lane_C分叉/汇合Fork/Merge如Lane_A - Lane_D, Lane_E车道-交通拓扑Lane-Traffic Topology建立交通元素与车道之间的关联。控制关系信号灯控制特定车道影响关系停止标志影响特定车道引导关系转向箭头引导车辆变道6.3 技术发展脉络STSUICCV 2021早期方法利用DETR编码车道查询进行拓扑预测。TopoNetArxiv 2023引入Deformable DETR和图神经网络聚合车道连通特征。TopoMLPICLR 2024结合PETR车道检测和MLP进行拓扑推理。TopoLogicNeurIPS 2024侧重构建可解释的车道拓扑推理管线。T2SG/TopoFormerCVPR 2025提出交通拓扑场景图实现车道、信号和拓扑关系的统一建模。6.4 性能指标在OpenLane-V2数据集上DET_l车道检测从12.7提升至34.7TOP_ll拓扑推理从2.9提升至24.1OLS综合分数从29.3提升至46.3七、传感器与特征融合7.1 环视相机系统多摄像头是静态道路结构感知的主要传感器。典型配置包括前视摄像头感知前方道路结构后视摄像头补充后方视野左侧视摄像头覆盖左侧区域右侧视摄像头覆盖右侧区域视图转换技术将透视视图Perspective View转换到鸟瞰图BEV是核心步骤。7.2 激光雷达点云激光雷达提供精确的深度信息和三维结构体素化Voxelization将三维点云划分为规则的体素网格PointPillars将点云编码为伪图像形式点云配准多帧点云融合构建全局地图7.3 多传感器融合早期融合在特征提取阶段融合不同传感器的原始数据。晚期融合各传感器独立处理后在决策层融合。BEV空间融合在统一的BEV表示空间中进行特征融合是当前主流方案。八、数据集与评测基准8.1 主流数据集nuScenes由法雷奥Valio和安波福Aptiv联合发布包含1000个场景40万个关键帧。Argoverse 2Argo AI发布专注于3D追踪和地图构建任务。OpenLane-V2专门用于评估拓扑推理能力的数据集。8.2 评测指标mAPmean Average Precision地图元素重构的平均精度均值。C-mAPConsistency mAP时序一致性指标衡量跨帧结果的稳定性。G-mAPGlobal mAP全局一致性指标。DET_l、TOP_ll、OLS拓扑推理专项指标。自动驾驶之心求点赞求分享求喜欢

更多文章