BDD100K: 大规模自动驾驶数据集与多任务学习工具包
BDD100K是由伯克利深度驾驶实验室开发的大规模、多样化驾驶数据集,专为异构多任务学习设计。该数据集包含10万个高质量驾驶视频片段,总计超过1000小时的驾驶体验和1亿帧图像数据,是自动驾驶和计算机视觉研究领域的宝贵资源。
项目概述
BDD100K数据集涵盖了全球多个城市、各种天气条件和不同时间段的真实驾驶场景。每个视频时长约40秒,分辨率高,并包含GPS/IMU数据用于轨迹信息分析。数据集的地理、环境和天气多样性使其成为训练鲁棒性模型的理想选择。
主要特性
大规模数据:包含10万个视频片段,覆盖白天、黄昏、夜晚、晴天、雨天、雪天等多种复杂环境条件。
多任务支持:支持10个不同的计算机视觉任务,包括图像标记、车道检测、可行驶区域分割、道路目标检测、语义分割、实例分割、多目标检测跟踪等。
多样化标注:提供三种类型的标注格式:
- 物体检测:识别并定位道路上的各种对象
- 语义分割:对画面中的每个像素进行分类
- 场景分类:区分不同类型的驾驶场景
技术架构
BDD100K工具包采用模块化设计,主要包含以下核心模块:
数据处理模块(bdd100k/data):提供数据列表生成和并行处理功能,支持大规模数据处理。
标注转换模块(bdd100k/label):支持多种格式转换,包括COCO格式转换、掩码生成、颜色映射等功能。
评估模块(bdd100k/eval):提供完整的评估流程,支持实例分割、车道标记、语义分割等多种任务的评估。
可视化模块(bdd100k/vis):包含轨迹可视化和图像查看器,帮助用户直观理解数据。
标注格式详解
物体检测标注
支持10个检测类别:行人、骑行者、汽车、卡车、公交车、火车、摩托车、自行车、交通灯、交通标志。
语义分割标注
使用19个类别进行评估,包括道路、人行道、建筑物、墙壁、围栏等场景元素。
车道标记标注
包含三个子任务:车道类别(9类)、车道方向(3类)、车道样式(3类),使用特殊的位编码格式存储。
实例分割标注
使用RGBA PNG格式存储位掩码,其中R通道存储类别ID,G通道存储实例属性,B和A通道组合存储实例ID。
快速开始
安装依赖
pip3 install -r requirements.txt
数据可视化
使用内置可视化工具查看标注数据:
python3 -m scalabel.vis.controller --image-dir <图像目录> --labels <标注文件>
格式转换
将标注转换为COCO格式:
python3 -m bdd100k.label.to_coco -m det -i <输入路径> -o <输出路径>
模型评估
运行实例分割评估:
python3 -m bdd100k.eval.run -t ins_seg -g <真实标注路径> -r <预测结果路径>
应用场景
BDD100K广泛应用于以下领域:
自动驾驶系统研发:训练自动驾驶汽车的感知模块,提升在复杂环境中的判断能力。
计算机视觉算法优化:通过大量数据验证新的检测、分割和分类算法。
智能交通研究:分析交通流模式,预测风险和优化路网设计。
学术研究:为相关领域的学术论文提供实验基础和基准数据集。
项目优势
- 全面性:覆盖从2D检测到3D姿态估计的完整自动驾驶感知任务链
- 一致性:所有任务使用统一的标注格式和评估标准
- 可扩展性:模块化设计支持自定义任务和评估指标
- 社区支持:活跃的开源社区和持续更新维护
BDD100K为自动驾驶研究者提供了从数据处理到模型评估的完整工具链,是推动自动驾驶技术发展的重要基础设施。通过参与和使用这个项目,研究者可以更快地验证算法性能,加速自动驾驶技术的实际应用。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00

