理想这篇Uni-World VLA,在尝试解决世界模型冻结幻觉的问题......

张开发
2026/5/22 17:15:27 15 分钟阅读
理想这篇Uni-World VLA,在尝试解决世界模型冻结幻觉的问题......
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Qiqi Liu等编辑 | 自动驾驶之心自动驾驶前沿信息获取→自动驾驶之心知识星球最近自动驾驶之心和大家连续聊了几篇世界模型结合自动驾驶的工作。长安的 DreamerAD是把世界模型的表征嵌入到端到端/VLA的训练中、小鹏的 X-World 偏云端世界模型多一些、理想的StreetForward聚焦是则是前馈框架下的场景重建。他们都在做世界模型但发力点不一样可控场景生成、闭环仿真 or 重建 及 辅助训练。今天和大家分享的是复旦大学、上海创智学院、理想汽车和萨里大学联合完成的新工作——Uni-World VLA也属于辅助训练的范式。这篇工作探索了一个关键问题在复杂城市场景中世界模型应该如何设计建模与规划之间的交互才能做出更安全、更合理的驾驶决策现有的基于世界模型的自动驾驶方法通常采用预测并规划或先预测后规划的范式。前者虽然在统一架构中进行世界建模和规划但两个任务在功能上是解耦的规划器并未显式利用学习到的环境动力学后者先预测完整的未来若干秒的场景后再进行规划但隐含假设了环境是静态的忽视了自车与周围人车之间的持续交互。更关键的问题在于当世界模型基于初始意图生成4秒的未来预测时它实际上产生了一个冻结的幻觉frozen hallucination。这段预测从生成那一刻便被锁住——它默认环境会对一个固定不变的计划做出响应而不会随实际动作更新。真实的驾驶并非如此。感知、预判和操作是持续交织的——每一次细微的方向调整都在实时改变对后续路面状态的判断。将想象未来和决定行动切分为两个独立步骤恰恰破坏了这种闭环。和 DreamerAD 不同Uni-World VLA 显式利用未来的生成帧辅助VLA训练。但不是以往 先想象后行动的模式这篇工作的方式是逐步交替生成未来帧和自车动作—— 每预测一帧未来画面立即生成对应时刻的自车动作然后将这个动作反馈到下一帧的预测中。这种逐帧交替的交互形成了世界建模与规划之间的闭环反馈使得每一步决策都能够基于最新的预测结果不断调整更贴近人类驾驶时边观察边调整的认知过程。此外模型还引入单目深度信息通过交叉注意力机制融合到历史帧中为世界建模提供更强的几何线索改善长时间跨度的场景预测质量。在NAVSIM基准测试上的大量实验表明Uni-World VLA在camera-only方法中实现了PDMS 89.4的优秀性能并在关键的前进进度EP和碰撞时间TTC指标上取得最佳分数同时保持了具有竞争力的视频生成质量FVD 141.8证明了交替式预测-规划策略在复杂驾驶场景中的有效性。论文标题Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving论文链接https://arxiv.org/abs/2603.27287一、研究背景自动驾驶系统的核心能力之一是理解环境如何变化并据此做出决策。换句话说它不仅要“看懂现在”还要“想象未来”并在这个过程中不断调整自己的行为。这听起来直观但在真实的城市驾驶中这其实是一个极具挑战的问题环境是动态的、充满不确定性的——车辆、行人、交通信号都在不断变化而且会对自车的行为产生反馈。从端到端到世界模型近年来随着多模态大模型MLLM和生成模型的发展自动驾驶逐渐从传统的端到端模仿学习走向两条更具潜力的技术路线一类是Vision-Language-ActionVLA模型强调语义理解能力直接从感知输入预测自车未来轨迹另一类是世界模型World Model学习环境的演化规律对未来场景进行生成式预测。这两类方法各有优势前者更擅长“决策”后者更擅长“建模世界”。但在大多数现有工作中这两种能力往往是割裂的——轨迹预测和环境建模分别优化缺乏有效的信息共享与协同。传统方法的局限性为了打通看世界和做决策之间的联系一些工作开始尝试在世界模型框架内同时完成环境建模与轨迹规划。这类工作大致可以归为两种做法预测并规划Predict-and-Plan范式世界建模和规划在同一个自回归架构中进行但两个任务在功能上是解耦的。世界建模专注于基于动作的高保真下一帧预测而轨迹规划将视觉观察映射到控制输出但并未显式利用学习到的动力信息。先预测后规划Predict-then-Plan范式首先预测未来场景然后基于预测的场景生成自车轨迹。这种方法的一个关键限制是隐含假设环境是静止的而现实世界的交通本质上是非静态的自车与周围车辆之间存在持续的交互。无论采用哪种范式两者都存在一个共同的限制在复杂的城市场景中交通状况瞬息万变。如果世界模型基于初始意图生成多秒的预测序列例如4秒它实际上产生了一个冻结的幻觉。它默认自车会按照一个固定计划行驶环境会对这个“固定计划”做出响应而这个计划在预测过程中不会更新。然而在现实中的驾驶中哪怕在0.5秒时做出一次轻微刹车或转向也可能改变接下来几秒的整个交通演化。因此当规划器依赖较远时刻例如第3秒的预测结果时这些信息很可能已经失效——它并没有反映自车在更早时刻做出的调整。不同的世界模型生成范式对比除了“预测与规划如何交互”还有一个同样关键、但常被忽略的问题模型到底有没有真正理解三维世界目前大多数基于camera-only的世界模型本质上是在做2D图像序列建模。它们可以很好地生成“看起来合理”的画面但这并不意味着模型真的掌握了场景中的几何结构。然而自动驾驶需要精确的3D空间推理能力——理解周围物体的深度、距离、相对位置以及场景的几何结构。这些问题本质上都与深度距离和空间结构密切相关。二、核心方法针对前面提到的两个核心问题——**冻结幻觉导致的预测与规划脱节以及camera-only模型缺乏三维几何理解——本文提出了Uni-World VLA**一个统一的视觉-语言-行动VLA模型在同一个框架中同时建模世界演化与驾驶决策。1. 总体框架如图所示Uni-World VLA 的输入包括历史自车视角图像、辅助自车状态信息以及文本提示。其中图像首先被编码为离散的视觉token自车速度、加速度和高层驾驶指令则被组织为ego token。随后这些历史信息一起输入到多模态大语言模型中由其进行自回归式生成。模型最终输出两类结果未来帧用于刻画场景演化动作序列用于表示自车未来轨迹。Uni-World VLA方法概览2. 输入与输出模型接收过去一段时间内的自车视角图像序列、文本提示词、以及当前时刻的辅助状态信息作为输入信息。为了同时捕捉场景语义和短时运动变化历史视觉信息被组织成两部分Contextual tokens来自较高分辨率的历史帧主要保留场景结构和语义信息Dynamic tokens以较低分辨率、10Hz采样的方式提取更关注细粒度运动变化。此外系统提示词和任务提示词也会被一并编码使模型能够更清楚地理解当前任务目标。整体上输入可以写成类似下面的形式[System Prompt | Dynamic Contextual Tokens | User Prompt | Ego Tokens]其中Ego tokens表示速度、加速度和高层驾驶指令的组合反映当前自车状态与导航意图。在输出部分生成得到的未来视觉token会通过MagVIT-v2的解码器还原成对应的RGB未来帧。 而动作token则会经过一个MLP头回归出对应时刻的自车位置最终形成一段完整的未来轨迹。3. 交替式帧-动作生成与传统“先预测后规划”或“预测并规划”的方式不同Uni-World VLA 采用的是一种交替生成范式。具体来说在每个时间步模型先预测该时刻的未来场景然后再基于已经生成的未来场景预测对应时刻的自车动作其中表示未来视觉token表示动作token。这种方式的关键在于模型不是一次性生成完整未来而是逐步交替生成未来帧和自车动作让规划过程始终依赖最新的场景预测从而形成预测与规划之间的交互。4. 训练目标模型在训练时同时监督未来视觉token的生成与自车轨迹的预测。对于视觉分支模型输出的是未来帧对应的离散token概率。不同于直接使用普通交叉熵损失本文采用Dynamic Focal Loss重点强调时间上发生变化的区域以减少相邻帧中大量静态token对训练的干扰。具体定义为其中是指示函数和用于控制动态区域与静态区域的相对权重。相应的动态加权交叉熵损失定义为其中表示单帧中的视觉 token 数量。对于轨迹分支则使用损失来监督预测轨迹与真实轨迹之间的差异最终的总损失是两者的加权和5. 推理方式在推理阶段模型按照自回归方式逐步生成未来帧和动作。先基于当前时刻视频帧生成下一帧未来场景再将该时刻对应的动作query输入模型中预测对应动作随后把新生成的视觉token继续加入上下文推动下一步视觉预测。为了同时建模时序依赖和帧内空间关系本文采用了因果约束下的混合注意力设计在时间维度上模型只能看到当前时刻之前的历史信息保证未来信息不会泄漏而在同一帧内部token之间则允许充分交互以捕捉图像内部的空间关联。为提高效率模型还会复用前一步的KV-cache避免重复计算整段历史序列。因此整个推理过程本质上就是一个持续更新的交替闭环模型一边预测环境一边更新决策。训练和推理过程示意图6. 深度信息融入除了交替生成之外本文还引入了单目深度信息来增强几何理解。具体做法是先使用Depth Anything 3从输入图像中估计深度图。其中表示输入图像表示提取出的深度图。为了与输入图像尺度匹配深度图会被调整为两种分辨率和。这两种分辨率的深度图分别输入到两个改进的 ViT 模块中分别对应context-depth-encoder (CDE)和 **dynamic-depth-encoder (DDE)**。随后历史视觉token会被分别嵌入为contextual token embedding和dynamic token embedding它们作为cross-attention中的query与深度编码器输出的key和value融合其中和分别表示contextual tokens与dynamic tokens的嵌入结果。采用交叉注意力CA方式融合深度信息这里来自CDE来自DDE。融合后的特征再输入到后续的多模态模型中用于未来场景与轨迹的联合建模。这一步的作用在于它为模型提供了额外的三维空间线索帮助其更稳定地理解场景结构减少长时间预测中的漂移问题也让后续的规划更贴近真实驾驶中的空间关系。三、实验结果主要结果对比我们在自动驾驶仿真基准NAVSIM v1上对方法进行了系统评估。该数据集提供高保真的第一视角图像序列以及结构化规划标注能够同时评估“看世界”和“做决策”的能力。模型以2秒历史观测为输入预测未来4秒8帧的场景与轨迹。在NAVSIM基准测试集上的性能对比Uni-World VLA 在核心指标PDMS上达到89.4整体性能领先所有对比方法。在关键安全与效率指标上表现突出EP更高 → 行驶更高效TTC更优 → 更安全。在仅使用前向单目相机front-camera-only的条件下依然取得领先结果。视频生成质量对比Uni-World VLA在视频生成指标FVD上达到141.8略优于DrivingGPT同时在规划性能上显著更优PDMS 89.4 vs 82.4。预测帧和BEV轨迹可视化可视化结果显示预测的未来帧在时间上保持良好的连贯性BEV图中也展示出规划轨迹与真实轨迹之间良好的贴合度。消融实验(1) 预训练、未来帧和深度的影响预训练带来最大提升PDMS从82.1提升到88.2说明基础模型本身的表征能力非常关键启用未来帧生成进一步提升性能PDMS从88.2提升到89.2显式建模“未来世界”确实能为轨迹规划提供更有效的上下文添加深度信息显著改善视频质量FVD从164.2降至141.8略微提升规划表现89.2到89.4。深度融合可视化对比从可视化可以更直观地看出差别在2.0秒时两者差别不大到3.0秒无深度模型开始出现结构模糊尤其是高速场景到4.0 秒尤其是转弯场景差异明显无深度结构发散、几何不稳定有深度空间布局更清晰、预测更连贯。(2) 不同交替生成方案的影响我们设计了5种不同的生成方式A–E本质区别在于帧和动作的生成频率及其对齐方式。其具体的交替预测逻辑如下图所示F表示视频帧A表示动作。方案E直接在2Hz评估频率下对齐帧和动作生成采用严格的F→A帧到动作交替取得最佳整体性能表明将生成频率与规划/评估协议匹配可以提高时间一致性和规划质量。而方案B、D 这种“看起来更细致”的方案反而更差。这可能是由于生成的时间频率和评估/规划的频率不一致。如果训练时是10Hz但评估是2Hz就会出现“学得很细但学不精”的问题。(3) 历史视觉信息的影响表中比较了不同历史视觉信息配置对模型性能的影响。使用2.0 s的Contextual Dynamic tokens完整配置时整体性能最佳PDMS 89.2EP 82.9FVD 164.2将历史长度缩短至1.0 sNC 和 TTC 略有提升但PDMS88.8和 FVD170.7下降仅使用Contextual tokens时仍能保持较高性能PDMS 89.1且DAC 最优96.8仅使用Dynamic tokens时性能显著下降PDMS 81.7FVD 203.6。这表明Contextual所提供的更高清晰度的历史信息相比低清但高频的Dynamic更重要。且在较长历史时间2.0 s上结合二者所取得的整体效果最佳。 结论本文提出的Uni-World VLA是一个统一的VLA模型通过交替生成范式紧密耦合世界预测和轨迹规划。主要创新点包括交替式建模与规划采用逐步反馈范式紧密耦合世界建模和轨迹规划使规划决策能够根据新预测的观察持续优化深度融合策略引入单目深度图并通过交叉注意力与历史帧融合为未来帧预测提供互补的空间线索。实验结果表明这种交替式预测-规划策略是有效的在 NAVSIM 基准上Uni-World VLA 在 camera-only 条件下取得了PDMS 89.4的成绩并在EP和TTC等关键指标上表现突出同时保持了具有竞争力的视频生成质量FVD 141.8。这也说明面向自动驾驶的世界模型真正重要的不只是“预测得像不像”还包括能不能在预测过程中持续修正决策。从这个角度看Uni-World VLA 提供了一种更贴近真实驾驶过程的建模思路。进一步来看这种“预测—决策交替进行”的框架并不局限于自动驾驶。在当前快速发展的具身智能Embodied AI / Robotics领域智能体同样需要在与环境的持续交互中完成感知、预测和控制。如果将世界建模与动作决策解耦往往难以应对真实环境中的动态变化。Uni-World VLA这种交替式闭环机制让模型在执行过程中可以不断根据新的观测调整自身决策也类似于真实机器人“感知—行动—再感知”的工作方式。因此这一思路也为具身智能系统中如何统一建模与控制提供了一种值得探索的方向。国内最大的具身智能社区求点赞求分享求喜欢

更多文章