自动驾驶静态障碍物感知方法

张开发

• 2026/4/13 19:03:17 • 15 分钟阅读

分享文章

点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | 高毅鹏编辑 | 自动驾驶之心原文链接https://zhuanlan.zhihu.com/p/2024469168322265851本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球一、引言二、技术演进历程2.1 离线高精地图时代2022年以前在2022年之前自动驾驶行业高度依赖预采集的离线高精地图。这一时期的技术特点包括采集方式组建专业的数据采集车队搭载高线数激光雷达、高精度定位系统RTK等昂贵设备对目标区域进行系统性扫描。建图流程采集得到的点云数据通过SLAM同步定位与地图构建技术进行配准融合随后由人工标注员在融合后的全局点云上进行地图元素的精确标绘。精度追求追求厘米级的几何精度满足车道级定位的需求。核心缺陷建图成本高昂、更新频率低月级甚至季度级更新、覆盖范围有限、无法应对道路临时变化。2.2 无图智驾与轻量化地图时代2023-2024年2023年开始行业逐步转向“无图智驾”方案利用在线生成的矢量地图结合轻量化地图LD Map实现自动驾驶。这一阶段的技术特征为在线建图成为主流通过车载传感器实时生成局部矢量地图不再依赖预采集数据。轻量化地图辅助保留拓扑关系和语义属性等核心信息大幅减少数据量实现快速更新。算法端到端化从传统的分割后处理范式转向端到端深度学习框架。2.3 实时生成与智能感知时代2025年后面向2025年及未来技术发展呈现以下趋势生成式地图利用3D高斯3DGS、神经辐射场NeRF等技术实现动态环境建模。世界模型融合将世界模型World Models引入地图构建实现从“记录过去”到“预测未来”的跨越。端到端一体化感知、建图、预测、规划逐渐融合为统一的大模型。三、核心感知技术框架3.1 HDMapNet开山之作HDMapNet是静态道路结构感知领域的开创性工作首次提出了局部在线地图构建的完整框架。其技术架构包含以下核心模块多模态特征提取HDMapNet同时处理环视摄像头图像和激光雷达点云两种数据源。图像分支通过卷积神经网络提取透视视图特征随后通过神经视角转换模块将特征映射到鸟瞰图Birds Eye ViewBEV空间点云分支则通过体素化Voxelization和PointPillars编码器提取特征同样转换到BEV空间。BEV解码与融合来自相机和激光雷达的BEV特征在解码器中进行融合输出统一的BEV特征表示。三大预测分支语义分割分支识别每个像素属于哪种道路元素类别实例嵌入分支为每个像素生成高维向量以区分不同实例如不同的车道线朝向预测分支预测道路元素的延伸方向。后处理与矢量化通过实例聚类算法将同一实例的像素聚合结合预测的朝向信息生成最终的矢量化地图元素。HDMapNet的主要贡献在于首次验证了在线建图的可行性但其采用的后处理流程较为复杂推理速度受限。3.2 VectorMapNet端到端矢量化先驱核心解读VectorMapNet 让自动驾驶车通过摄像头和激光雷达直接输出矢量格式的局部高精地图而不是像素图片。系统架构VectorMapNet ── 问题定义 │ ├── 输入多摄像头图像激光雷达点云 │ ├── 输出矢量格式局部 HD 地图 │ └── 优势端到端、无需后处理 │ ├── 核心创新 │ ├── 点集表示 polyline │ ├── 两阶段检测粗→细 │ └── 自回归生成点序列 │ ├── 架构组成 │ ├── BEV 特征提取器 │ │ ├── CNNs图像 │ │ ├── PointPillars点云 │ │ └── IPM Voxelization │ │ │ ├── Map Element Detector │ │ ├── Element Query 设计 │ │ ├── Transformer Decoder │ │ ── Deformable Attention │ │ │ └── Polyline Generator │ ├── 细化几何特征 │ ├── 自回归点序列生成 │ └── EOS 结束标记 │ ├── 训练目标 │ ├── L_det检测损失 │ │ ├── 关键点位置 │ │ └── 元素分类 │ │ │ ── L_gen生成损失 │ └── 点序列概率分布 │ └── 输出格式 ├── Drivable Area可行驶区域 ├── Boundary边界 ├── Ped Crossing人行横道 └── Divider车道分隔线什么是矢量地图| 用点序列表示道路元素车道线、路沿等而不是像素网格。例一条车道线 [(x1,y1), (x2,y2), (x3,y3)...] | ✅ 矢量数学坐标✅ 紧凑、精确✅ 适合规划系统使用为什么用 polyline| polyline折线由点构成点的顺序天然表示方向。Planner规划系统接口方便。 | ✅ 点集表达灵活✅ 方向信息内置✅ 接口友好整体流程是什么| 传感器数据 → BEV 特征 → Map Element Detector → Polyline Generator → 矢量地图 | ✅ 两阶段检测✅ 先框架后细化怎么训练的| Loss 检测损失生成损失检测关键点位置分类生成点序列概率分布 | ✅ 多任务联合优化✅ 自回归生成3.2.1 技术拆解(a) BEV 特征提取器多摄像头图像激光雷达点云 ↓ 转换到鸟瞰视角BEV ↓ 统一特征表示为什么是BEV视角因为地图是俯视的这样最直观。(b) Map Element Detector地图元素检测器输入BEV 特征 Element Query查询向量 ↓ Transformer Decoder ↓ 输出关键点位置元素类型Element Query 是什么相当于探针主动去图里找道路元素每个 Query k 个关键点的向量表示每帧最多 N_max 个 Query防止过多关键点表示方式(c) Polyline Generator折线生成器输入检测到的元素框架 ↓ 自回归生成点序列 ↓ 输出精细的矢量坐标自回归是什么意思像写字一样一笔一划生成生成第 n 个点时已经知道前 n-1 个点公式p(整条线) p(点1) × p(点2|点1) × p(点3|点1,点2) × ...3️⃣ Loss 函数设计总 Loss 检测 Loss 生成 Loss 检测 Loss 关键点位置误差分类误差生成 Loss 生成点序列的概率对数似然直观理解检测 Loss惩罚找错位置或认错类型生成 Loss惩罚画得不像3.3 MapTR实时SOTA方案MapTR V1系统架构图┌─────────────────────────────────────────────────────────┐ │ MapTR v1 架构 │ ├─────────────────────────────────────────────────────────┤ │ │ │ 传感器数据 (摄像头激光雷达) │ │ ↓ │ │ ┌─────────────────┐ │ │ │ Map Encoder │ 2D 图像 → BEV 特征 │ │ │ (Backbone) │ 点云 → BEV 特征 │ │ └────────┬────────┘ │ │ ↓ │ │ ┌─────────────────┐ │ │ │ BEV Features │ 256×256×256 鸟瞰特征图 │ │ └────────┬────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ Map Decoder (Transformer) │ │ │ │ ┌─────────────┐ ┌─────────────┐ │ │ │ │ │ Instance │ │ Point │ │ │ │ │ │ Query │────▶│ Query │ │ │ │ │ │ (元素级) │ │ (点级) │ │ │ │ │ └─────────────┘ └─────────────┘ │ │ │ └─────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ Hierarchical Bipartite Matching │ │ │ │ Layer1: 实例级匹配 (分类位置) │ │ │ │ Layer2: 点级匹配 (点序列对齐) │ │ │ └─────────────────────────────────────────────────┘ │ │ ↓ │ │ 输出矢量地图 (ped crossing, divider, boundary) │ │ │ └─────────────────────────────────────────────────────────┘核心创新点用点集 (Point Set) 统一表示所有地图元素车道线、边界、人行横道Polyline开放形状点序列Polygon封闭形状点序列首尾相连 | ✅ 点集表示统一✅ 方向灵活性位置关系之间的不变性✅ 端到端输出Instance Query: 检测元素Point Query: 精细坐标✅ 两层次 Query✅ 分层匹配策略预测Ŷ {ŷ₁, ŷ₂, ..., ŷₙ} (每个ŷ 点集类型) 真值Y {y₁, y₂, ..., yₘ} Step 1: 实例级匹配 ┌────────────────────────────────────────────┐ │ 找哪个预测对应哪个真值元素 │ │ min Σ [L_Focal(分类) L_position(位置)] │ │ 类似这是车道线还是边界大概在哪 │ └────────────────────────────────────────────┘ ↓ Step 2: 点级匹配 ┌────────────────────────────────────────────┐ │ 在实例匹配基础上对齐点序列 │ │ min Σ D_Manhattan(点坐标) │ │ 类似这条线的每个点精确位置 │ └────────────────────────────────────────────┘Loss 函数设计 | L λL_cls αL_p2p βL_dirL_cls: 元素分类L_p2p: 点间距离ManhattanL_dir: 方向一致性cosine similarity✅ 多任务联合✅ 几何语义MapTR V2v2 相比 v1 改进什么┌─────────────────────────────────────────────────────────┐ │ MapTR v2 vs v1 改进对比 │ ├─────────────────────────────────────────────────────────┤ │ │ │ 1️⃣ 增加 centerline 元素类型 │ │ ┌──────────────────────────────────────┐ │ │ │ v1: ped crossing, divider, boundary │ │ │ │ v2: centerline (车道中心线) │ │ │ │ → 更丰富的地图语义 │ │ │ └──────────────────────────────────────┘ │ │ │ │ 2️⃣ Decoupled Self-Attention (解耦自注意力) │ │ ┌──────────────────────────────────────┐ │ │ │ v1: 全局自注意力计算量大 │ │ │ │ v2: 实例内计算实例间分离 │ │ │ │ → 计算量↓ 效率↑ │ │ │ └──────────────────────────────────────┘ │ │ │ │ 3️⃣ 辅助头监督 │ │ ┌──────────────────────────────────────┐ │ │ │ 在 Decoder 中间层加监督信号 │ │ │ │ → 梯度传播更好收敛更快 │ │ │ └──────────────────────────────────────┘ │ │ │ │ 4️⃣ 分层级 Query Embedding │ │ ┌──────────────────────────────────────┐ │ │ │ qᵢʰᵉ qⁱⁿˢ qⱼᵖᵗ │ │ │ │ 实例 Query 点 Query 融合 │ │ │ │ → 更好的层次表示 │ │ │ └──────────────────────────────────────┘ │ │ │ │ 5️⃣ 固定方向编码 │ │ ┌──────────────────────────────────────┐ │ │ │ 线性元素使用固定方向 │ │ │ │ → 减少学习难度更稳定 │ │ │ └──────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────┘ #### Decoupled Self-Attention 详解 v1 的 Self-Attention: ┌────────────────────────────────────────┐ │ 所有 Query 互相计算注意力 │ │ 计算量O((N×nᵥ)²) │ │ N实例数nᵥ每实例点数 │ │ → 计算爆炸 │ └────────────────────────────────────────┘ v2 的 Decoupled Self-Attention: ┌────────────────────────────────────────┐ │ 1) 实例内自注意力 │ │ 每个元素的点之间计算 │ │ 计算量O(N × nᵥ²) │ │ │ │ 2) 实例间自注意力 │ │ 不同元素之间计算 │ │ 计算量O(N²) │ │ │ │ 总计算量O(N × nᵥ² N²) O((N×nᵥ)²)│ │ → 效率提升显著 │ └────────────────────────────────────────┘增加 centerline 元素类型Decoupled Self-Attention减少计算辅助头监督分层 Query Embedding固定方向编码✅ 效率提升✅ 精度提升✅ 元素更丰富四、地图元素表示方法地图元素的表示方法直接决定了建模精度和学习难度。当前主流方法分为三大流派4.1 点集表示方法代表模型MapTR、MapTRv2核心思想将地图元素离散化为一组有序点集通过“排列等价”的概念消除点序定义的歧义。技术特点采用层级查询实例级查询 × 点级查询并行回归所有点的坐标能统一建模折线和多边形均匀采样可能导致复杂弯道细节丢失。4.2 曲线表示方法代表模型BeMapNet、PivotNet核心思想使用数学曲线显式建模道路几何形状。技术细节BeMapNet使用分段贝塞尔曲线头通过控制点显式建模平滑曲线PivotNet基于关键点驱动将点级表示转换为实例级掩码。优缺点能精细建模复杂曲线形状但需要额外的几何先验知识。4.3 混合表示方法代表模型HiMap、MapVR核心思想结合点级和实例级的优势。技术特点HiMap采用点级与实例级双向交互学习利用双向注意力机制MapVR输出矢量化结果的同时结合可微光栅化添加分割监督信号。发展趋势混合表示正在成为2024年的主流趋势。4.4 2024年表示方法创新MGMapCVPR 2024掩码引导学习通过学习到的掩码在多尺度BEV特征中精确定位。GeMapECCV 2024几何约束学习端到端学习欧式几何形状及其关系平行、垂直、矩形首次在Argoverse2数据集上突破70% mAP。MapQRECCV 2024增强查询集设计采用“散发与聚集”策略深度挖掘实例级查询的信息。ADMapECCV 2024抗干扰框架专门针对遮挡、恶劣天气等干扰场景。五、时序建模与增量建图5.1 时序融合的必要性单帧推理在遮挡和远距离场景下表现受限。通过融合历史帧信息时序建模可实现更稳定的在线建图减少单帧噪声影响更好的遮挡恢复能力更长的感知距离地图元素ID的跨帧一致性5.2 StreamMapNet流式融合方案StreamMapNet引入了时序融合机制通过记忆缓存利用历史帧信息。核心组件多点注意力Multi-Point Attention突破标准可变形注意力的局部感受野限制有效捕捉长条形地图元素记忆缓存Memory Buffer存储历史帧的BEV特征和传播查询。姿态对齐通过自车位姿变换对历史特征进行对齐融合。5.3 MapTracker跟踪范式MapTracker将地图构建表述为跟踪问题通过跟踪确保地图元素ID的跨帧一致性。长时记忆维护跨越20帧的历史记忆利用跨步记忆融合Strided Memory Fusion。跟踪真值引入额外的跟踪标注确保时序稳定性。性能提升在nuScenes数据集上mAP提升8%一致性mAPC-mAP提升19%。5.4 其他时序方法SQD-MapNet流式查询去噪通过在传播查询中加入噪声并进行去噪训练增强对累积误差的鲁棒性。MemFusionMap工作记忆融合仅使用4帧历史信息即实现显著性能提升。HisTrackMap2025综合方案结合全局矢量化地图构建与历史跟踪融合。六、拓扑推理技术6.1 从几何感知到拓扑推理仅仅感知车道的几何形状是不够的系统必须理解车道间的连接关系、语义属性以及与交通控制元素的交互。拓扑推理是规划模块的核心直接关系到驾驶的安全性和系统泛化能力。6.2 拓扑关系分类车道-车道拓扑Lane-Lane Topology关注车道之间的连通逻辑。前继/后继Successor如Lane_A - Lane_B左右相邻Adjacent如Lane_A - Lane_C分叉/汇合Fork/Merge如Lane_A - Lane_D, Lane_E车道-交通拓扑Lane-Traffic Topology建立交通元素与车道之间的关联。控制关系信号灯控制特定车道影响关系停止标志影响特定车道引导关系转向箭头引导车辆变道6.3 技术发展脉络STSUICCV 2021早期方法利用DETR编码车道查询进行拓扑预测。TopoNetArxiv 2023引入Deformable DETR和图神经网络聚合车道连通特征。TopoMLPICLR 2024结合PETR车道检测和MLP进行拓扑推理。TopoLogicNeurIPS 2024侧重构建可解释的车道拓扑推理管线。T2SG/TopoFormerCVPR 2025提出交通拓扑场景图实现车道、信号和拓扑关系的统一建模。6.4 性能指标在OpenLane-V2数据集上DET_l车道检测从12.7提升至34.7TOP_ll拓扑推理从2.9提升至24.1OLS综合分数从29.3提升至46.3七、传感器与特征融合7.1 环视相机系统多摄像头是静态道路结构感知的主要传感器。典型配置包括前视摄像头感知前方道路结构后视摄像头补充后方视野左侧视摄像头覆盖左侧区域右侧视摄像头覆盖右侧区域视图转换技术将透视视图Perspective View转换到鸟瞰图BEV是核心步骤。7.2 激光雷达点云激光雷达提供精确的深度信息和三维结构体素化Voxelization将三维点云划分为规则的体素网格PointPillars将点云编码为伪图像形式点云配准多帧点云融合构建全局地图7.3 多传感器融合早期融合在特征提取阶段融合不同传感器的原始数据。晚期融合各传感器独立处理后在决策层融合。BEV空间融合在统一的BEV表示空间中进行特征融合是当前主流方案。八、数据集与评测基准8.1 主流数据集nuScenes由法雷奥Valio和安波福Aptiv联合发布包含1000个场景40万个关键帧。Argoverse 2Argo AI发布专注于3D追踪和地图构建任务。OpenLane-V2专门用于评估拓扑推理能力的数据集。8.2 评测指标mAPmean Average Precision地图元素重构的平均精度均值。C-mAPConsistency mAP时序一致性指标衡量跨帧结果的稳定性。G-mAPGlobal mAP全局一致性指标。DET_l、TOP_ll、OLS拓扑推理专项指标。自动驾驶之心求点赞求分享求喜欢

更多文章

前端开发 2026/4/13 19:02:35

小白也能玩转语音识别：Qwen3-ASR-0.6B镜像部署全攻略

小白也能玩转语音识别：Qwen3-ASR-0.6B镜像部署全攻略 1. 为什么选择Qwen3-ASR-0.6B 语音识别技术正在改变我们与设备交互的方式。想象一下，你可以把会议录音自动转成文字，把语音备忘录变成可搜索的文档，甚至让家里的智能设备听懂…

FastJSON反序列化实战指南：从类型转换异常到高效解析在Java生态中处理JSON数据时，FastJSON凭借其出色的性能表现成为众多开发者的首选工具。但不少初学者在使用过程中都会遇到一个经典问题：明明JSON字符串看起来结构完整，为什么用…

张开发

前端开发 2026/4/13 18:47:14

Qwen-Ranker Pro在客服系统中的应用：智能问答排序优化

Qwen-Ranker Pro在客服系统中的应用：智能问答排序优化最近在帮一个做智能客服的朋友优化他们的问答系统，遇到了一个挺典型的问题：用户问“怎么重置密码”，系统明明在知识库里找到了好几条相关的答案，但返回给用户的却…

张开发

自动驾驶静态障碍物感知方法

最新文章

告别AI瞎猜：用Spec-kit和CodeBuddy CLI，手把手教你给Go项目生成100%覆盖率的单元测试

如何用Obsidian Projects实现知识管理的可视化革命？[特殊字符]

从.bat脚本到PowerShell：教你用Windows FTP命令行打造自动化文件同步工具

告别复杂操作！Wan2.2-I2V-A14B图片转视频超简单教程

软件渗透检测刻不容缓三起安全事件敲响警钟

3步快速部署Fay数字人框架：打造你的AI智能助手完整指南

推荐文章

DE1-SoC实战指南：在Qsys/Platform中集成GHRD工程与扩展SPI外设——（de1教程2.5节）

5个核心技术维度解析Cursor Pro激活工具：从机器标识到订阅验证的完整技术栈

vLLM推理引擎教程7-CUDA Graph：从原理到实战的性能优化指南

Rust 泛型与特征约束的应用

利用 milvus-backup 完成从单机到分布式 Milvus 的无缝数据迁移实战

风险管理的识别评估与应对策略

相关文章

Java PTA练习避坑指南：如何避免PersonOverride类中的常见错误（含完整代码示例）

DanKoe 视频笔记：成为失败者：重新定义成功与快乐 [特殊字符]

Caxa二次开发环境配置避坑指南：从ObjectCRX安装到HelloWorld运行

5分钟极速部署：Sakura启动器如何让AI翻译变得像聊天一样简单？

LuckyLilliaBot深度解析：高性能NTQQ OneBot 11协议框架架构设计与实现

OpenClaw 2026年3月史诗级迭代全景深度分析报告：从危机到新生，从工具到生态操作系统

分享文章

更多文章

小白也能玩转语音识别：Qwen3-ASR-0.6B镜像部署全攻略

丹青幻境快速上手：无需代码，用诗意描述一键生成惊艳水墨画

30分钟快速掌握SpeechBrain：从零开始构建智能语音系统的终极指南

nanobot轻松上手：开箱即用的AI助手，快速集成QQ智能聊天

如何掌握PCILeech：终极DMA内存攻击工具完全指南

MySQL 架构、存储引擎、库表操作一站式掌握

猫抓浏览器扩展：快速获取网页视频资源的终极指南

3个实战技巧：用Real-ESRGAN让模糊图像重获新生

工业自动化必备：C#+Modbus TCP控制伺服电机保姆级教程

终极飞书文档批量导出工具：25分钟完成700+文档迁移的完整指南

fastJson反序列化踩坑实录：为什么JSON.parse()不能直接强转对象？

Qwen-Ranker Pro在客服系统中的应用：智能问答排序优化

自动驾驶静态障碍物感知方法

最新文章

告别AI瞎猜：用Spec-kit和CodeBuddy CLI，手把手教你给Go项目生成100%覆盖率的单元测试

如何用Obsidian Projects实现知识管理的可视化革命？[特殊字符]

从.bat脚本到PowerShell：教你用Windows FTP命令行打造自动化文件同步工具

告别复杂操作！Wan2.2-I2V-A14B图片转视频超简单教程

软件渗透检测刻不容缓 三起安全事件敲响警钟

3步快速部署Fay数字人框架：打造你的AI智能助手完整指南

推荐文章

DE1-SoC实战指南：在Qsys/Platform中集成GHRD工程与扩展SPI外设——（de1教程2.5节）

5个核心技术维度解析Cursor Pro激活工具：从机器标识到订阅验证的完整技术栈

vLLM推理引擎教程7-CUDA Graph：从原理到实战的性能优化指南

Rust 泛型与特征约束的应用

利用 milvus-backup 完成从单机到分布式 Milvus 的无缝数据迁移实战

风险管理的识别评估与应对策略

相关文章

Java PTA练习避坑指南：如何避免PersonOverride类中的常见错误（含完整代码示例）

DanKoe 视频笔记：成为失败者：重新定义成功与快乐 [特殊字符]

Caxa二次开发环境配置避坑指南：从ObjectCRX安装到HelloWorld运行

5分钟极速部署：Sakura启动器如何让AI翻译变得像聊天一样简单？

LuckyLilliaBot深度解析：高性能NTQQ OneBot 11协议框架架构设计与实现

OpenClaw 2026年3月史诗级迭代全景深度分析报告：从危机到新生，从工具到生态操作系统

分享文章

更多文章

软件渗透检测刻不容缓三起安全事件敲响警钟