三维边界框估计在自动驾驶中的应用

2024-06-20 09:25:32作者：郁楠烈Hubert

近年来，自动驾驶技术的飞速发展引起了全球范围内的广泛关注与研究热潮。其中，准确识别并定位道路中各种物体的能力，是实现安全驾驶的关键。本篇文章将向您介绍一款开源项目——基于深度学习和几何原理的三维边界框估计算法，该算法已被成功应用于自动驾驶场景中。

一、项目简介

该项目全面实现了论文《使用深度学习和几何进行3D边界框估计》所提出的方法，并在此基础上进行了多项创新改进。相较于前作image-to-3d-bbox(https://github.com/experiencor/image-to-3d-bbox)，它不仅简化了配置参数，提升了模型的鲁棒性和效率，还引入了软约束机制以优化特定位置下3D边界框的稳定性。

二、技术分析

依赖环境: 支持Python 3.6及以上版本，TensorFlow 1.12.0。

核心技术创新:

无先验信息定位: 不再依赖于对象预置位置信息，而是通过解析局部方向和二维坐标确定每个目标的具体位置。
增强稳定性的软约束：为提高不同场景下的预测准确性，添加软约束来改善特定点上3D边界框的稳定性。
MobileNet V2的应用: 引入更轻量级的网络架构，显著减少了参数数量，使得模型成为全卷积类型，极大地提高了运行速度和资源利用率。
优化导向损失函数: 对原有的导向损失进行了正确的形式调整，进一步提升模型的表现力。
增强可视化功能: 增加鸟瞰视图的可视化支持，方便直观地评估和展示结果。

三、应用场景

本项目主要用于处理真实世界中的复杂驾驶环境，如城市街道、高速公路等，能够有效帮助自动驾驶车辆实时检测前方行人、车辆及其他障碍物的位置尺寸，进而做出及时避让或减速决策，确保行车安全。

四、项目特点

性能对比

骨干网络	参数/模型大小	推理时间(s/img)（CPU/GPU）	类型	Easy	Moderate	Hard
VGG	40.4M / 323MB	2.041 / 0.081	AP2D	100	100	100
			AOS	99.98	99.82	99.57
			APBV	26.42	28.15	27.74
			AP3D	20.53	22.17	25.71
mobileNet V2	2.2M / 19MB	0.410 / 0.113	AP2D	100	100	100
			AOS	99.78	99.23	98.18
			APBV	11.04	8.99	10.51
			AP3D	7.98	7.95	9.32