NuScenes数据集处理中的文件缺失问题分析与解决方案

2025-07-01 01:30:22作者：柯茵沙

问题背景

在使用NuScenes自动驾驶数据集进行开发时，许多开发者遇到了一个常见问题：系统提示某些点云文件（如LIDAR_TOP目录下的.pcd.bin文件）不存在，即使已经下载了完整的数据集。这个问题在多个开发环境中都有出现，影响了数据预处理流程的正常进行。

问题现象

典型的错误信息显示为：

FileNotFoundError: file "./data/nuscenes/samples/LIDAR_TOP/n015-2018-07-18-11-07-57+0800__LIDAR_TOP__1531883530449377.pcd.bin" does not exist

根本原因分析

经过多位开发者的实践验证，这个问题通常由以下几个原因导致：

数据集下载不完整：NuScenes完整数据集包含约350GB的数据，分为多个压缩包（part1-part10）。如果只下载了部分压缩包（如仅下载mini版本），会导致文件缺失。
压缩包损坏：在下载或解压过程中，某些压缩包可能损坏，导致解压后的文件不完整。特别是较大的压缩包（如part1）更容易出现这个问题。
文件路径配置错误：虽然较少见，但有时数据路径配置不正确也会导致系统找不到文件。

解决方案

完整数据集下载

确保下载完整的NuScenes v1.0数据集，包含所有部分（part1-part10）。不要仅下载mini版本，因为mini版本只包含少量样本，无法满足完整训练需求。

压缩包完整性检查

检查下载的压缩包大小是否与官方提供的大小一致
使用校验工具验证压缩包的完整性
如果发现某个压缩包损坏（如part1），需要重新下载该压缩包

文件路径验证

确认数据目录结构正确：

./data/nuscenes/
├── samples/
│   └── LIDAR_TOP/
├── sweeps/
│   └── LIDAR_TOP/
└── v1.0-*/

检查环境变量或配置文件中的数据路径设置是否正确

最佳实践建议

使用稳定的网络环境下载：由于数据集较大，建议在网络状况良好的环境下下载，避免中断导致文件损坏。
分批验证：下载完成后，可以分批解压和验证，及时发现并解决损坏的压缩包。
保留原始压缩包：解压后不要立即删除原始压缩包，以备后续需要重新解压。
跨机器迁移注意事项：当在不同机器间迁移数据时，建议使用校验工具确保所有文件完整传输。

总结

NuScenes数据集文件缺失问题通常源于数据集下载不完整或压缩包损坏。通过完整下载数据集、验证压缩包完整性以及正确配置数据路径，可以有效解决这一问题。对于自动驾驶研发团队，建立规范的数据管理流程可以避免此类问题的重复发生，提高开发效率。

nuscenes-devkit

The devkit of the nuScenes dataset.

项目地址：https://gitcode.com/gh_mirrors/nu/nuscenes-devkit

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

NuScenes数据集处理中的文件缺失问题分析与解决方案

问题背景

问题现象

根本原因分析