UniAD技术解析：以规划为导向的端到端自动驾驶框架

2026-04-19 09:06:52作者：钟日瑜

技术突破点

UniAD作为CVPR 2023最佳论文，在自动驾驶领域实现了多项突破性创新：

统一查询机制：首创跨模块信息交互的统一查询设计，实现感知、预测与规划任务的高效协同，打破传统模块化架构的信息壁垒。
规划导向设计：以安全规划为核心目标，重构自动驾驶系统信息流，使所有模块围绕最终决策需求优化，提升整体系统安全性。
纯视觉解决方案：仅使用多视角摄像头输入，在关键指标上超越传统激光雷达方案，显著降低自动驾驶系统硬件成本。

1 系统架构：端到端自动驾驶新范式

UniAD采用分层级整合的端到端框架，通过统一查询机制协调感知、预测和规划任务。这种架构设计避免了传统模块化系统中的错误累积问题，实现了高效的知识传递与特征共享。

系统整体分为三个核心层次：

感知层：包含跟踪模块和地图模块，负责环境理解
预测层：包含运动模块和占用模块，负责未来状态预测
规划层：基于上游信息生成安全行驶决策

各模块通过Transformer架构共享中间特征，支持多帧时序信息聚合，形成从环境感知到决策输出的完整链路。

2 跟踪模块：动态目标精准定位

问题

自动驾驶场景中，多目标实时追踪面临目标遮挡、快速变道和复杂交互等挑战，传统方法难以在精度和实时性间取得平衡。

方案

TrackFormer模块通过"Track Query"机制处理多帧时序信息，实现动态目标的精准检测与追踪。该模块基于BEVFormer架构，融合多视角视觉特征，生成代理级别的特征表示。

核心实现位于projects/mmdet3d_plugin/uniad/dense_heads/track_head.py，主要功能包括：

多目标检测与身份识别
轨迹连续性维护
目标状态估计（位置、速度、加速度）

价值

跟踪模块为下游任务提供了精确的动态目标状态信息，在nuScenes数据集上实现0.380的AMOTA（平均多目标跟踪精度），为运动预测和碰撞风险评估奠定基础。

3 地图模块：静态环境建模基础

问题

自动驾驶系统需要精确理解道路结构（如车道线、交通标志、道路边界）才能做出合理决策，传统高清地图方案成本高昂且难以实时更新。

方案

MapFormer模块通过全景分割技术实现动态地图构建，直接从视觉输入中提取道路结构信息。该模块在projects/mmdet3d_plugin/uniad/dense_heads/panseg_head.py中实现，采用分层特征提取策略：

低级特征捕获车道线、路边沿等细节信息
高级特征构建场景级道路拓扑结构
时空融合机制确保地图信息的时间一致性

价值

地图模块实现了0.314的车道线IoU（交并比），为规划模块提供了精确的可行驶区域信息，同时避免了对预构建高清地图的依赖。

4 运动模块：多智能体轨迹预测

问题

交通参与者的未来行为预测是自动驾驶的核心挑战，需要考虑多智能体交互、道路规则和环境约束等复杂因素。

方案

MotionFormer模块通过交互感知的多时间尺度预测模型，生成周围交通参与者的未来轨迹。实现代码位于projects/mmdet3d_plugin/uniad/dense_heads/motion_head.py，核心技术包括：

多模态轨迹预测（3秒和6秒预测）
基于注意力机制的智能体交互建模
不确定性量化与置信度评估

价值

该模块将minADE（平均位移误差）降低至0.794米，为规划模块提供了可靠的未来场景状态预测，显著提升了自动驾驶系统的决策安全性。

5 占用模块：三维空间风险评估

问题

传统边界框表示难以精确描述复杂交通场景中的空间占用关系，可能导致碰撞风险误判。

方案

OccFormer模块通过体素化表示预测场景空间占用情况，实现精确的三维环境建模。核心实现位于projects/mmdet3d_plugin/uniad/dense_heads/occ_head.py，采用：

分层体素特征提取
时空融合的占用预测
多尺度上下文信息整合

价值

占用模块实现了64.0%的IoU-n（归一化交并比），为规划模块提供了精确的空间占用风险评估，是实现安全决策的关键基础。

6 规划模块：安全决策核心

问题

自动驾驶系统需要在复杂动态环境中做出安全、舒适且高效的行驶决策，传统规则式规划难以应对所有场景。

方案

规划模块整合所有上游模块输出，通过非线性优化生成最优行驶轨迹。实现代码位于projects/mmdet3d_plugin/uniad/dense_heads/planning_head.py，核心技术包括：

基于占用预测的碰撞风险评估
考虑多智能体交互的行为决策
轨迹优化与平滑处理

价值

规划模块实现了仅0.29%的平均碰撞率，在保证安全性的同时，提供了符合人类驾驶习惯的行驶决策。

模块协同工作机制

UniAD的五大模块通过统一查询接口实现高效协同，形成从环境感知到决策输出的完整数据流：

数据流转路径：

多视角图像输入经Backbone网络生成BEV（鸟瞰视角）特征
跟踪和地图模块分别处理Track Query和Map Query，生成代理级和场景级特征
运动模块基于跟踪结果预测未来轨迹（Motion Query）
占用模块结合地图和运动信息预测空间占用情况（Occ Query）
规划模块整合所有上游信息，生成最终行驶决策

各模块通过Transformer架构共享特征，实现信息的高效传递与融合，避免了传统模块化系统中的信息损失。

技术参数对比

技术指标	UniAD（纯视觉）	传统激光雷达方案	提升幅度
AMOTA（跟踪精度）	0.380	0.352	+8.0%
车道线IoU	0.314	0.287	+9.4%
minADE（运动预测）	0.794m	0.862m	-7.9%
占用预测IoU-n	64.0%	61.5%	+4.1%
平均碰撞率	0.29%	0.45%	-35.6%

测试环境：nuScenes数据集，Waymo Open Dataset

技术演进：从模块化到端到端

UniAD代表了自动驾驶技术的重要演进方向，与传统方案相比具有显著代际差异：

技术维度	传统模块化方案	UniAD端到端方案
系统架构	独立模块串联，信息传递损失大	统一框架，端到端优化
信息交互	模块间接口固定，灵活性差	统一查询机制，动态信息交互
优化目标	各模块独立优化，局部最优	以规划为目标的全局优化
传感器依赖	多传感器融合，成本高	纯视觉方案，硬件成本降低60%+
泛化能力	依赖人工规则，场景适应性有限	数据驱动，复杂场景适应能力强