BDD100K: 大规模自动驾驶数据集与多任务学习工具包
BDD100K是由伯克利深度驾驶实验室开发的大规模、多样化驾驶数据集,专为异构多任务学习设计。该数据集包含10万个高质量驾驶视频片段,总计超过1000小时的驾驶体验和1亿帧图像数据,是自动驾驶和计算机视觉研究领域的宝贵资源。
项目概述
BDD100K数据集涵盖了全球多个城市、各种天气条件和不同时间段的真实驾驶场景。每个视频时长约40秒,分辨率高,并包含GPS/IMU数据用于轨迹信息分析。数据集的地理、环境和天气多样性使其成为训练鲁棒性模型的理想选择。
主要特性
大规模数据:包含10万个视频片段,覆盖白天、黄昏、夜晚、晴天、雨天、雪天等多种复杂环境条件。
多任务支持:支持10个不同的计算机视觉任务,包括图像标记、车道检测、可行驶区域分割、道路目标检测、语义分割、实例分割、多目标检测跟踪等。
多样化标注:提供三种类型的标注格式:
- 物体检测:识别并定位道路上的各种对象
- 语义分割:对画面中的每个像素进行分类
- 场景分类:区分不同类型的驾驶场景
技术架构
BDD100K工具包采用模块化设计,主要包含以下核心模块:
数据处理模块(bdd100k/data):提供数据列表生成和并行处理功能,支持大规模数据处理。
标注转换模块(bdd100k/label):支持多种格式转换,包括COCO格式转换、掩码生成、颜色映射等功能。
评估模块(bdd100k/eval):提供完整的评估流程,支持实例分割、车道标记、语义分割等多种任务的评估。
可视化模块(bdd100k/vis):包含轨迹可视化和图像查看器,帮助用户直观理解数据。
标注格式详解
物体检测标注
支持10个检测类别:行人、骑行者、汽车、卡车、公交车、火车、摩托车、自行车、交通灯、交通标志。
语义分割标注
使用19个类别进行评估,包括道路、人行道、建筑物、墙壁、围栏等场景元素。
车道标记标注
包含三个子任务:车道类别(9类)、车道方向(3类)、车道样式(3类),使用特殊的位编码格式存储。
实例分割标注
使用RGBA PNG格式存储位掩码,其中R通道存储类别ID,G通道存储实例属性,B和A通道组合存储实例ID。
快速开始
安装依赖
pip3 install -r requirements.txt
数据可视化
使用内置可视化工具查看标注数据:
python3 -m scalabel.vis.controller --image-dir <图像目录> --labels <标注文件>
格式转换
将标注转换为COCO格式:
python3 -m bdd100k.label.to_coco -m det -i <输入路径> -o <输出路径>
模型评估
运行实例分割评估:
python3 -m bdd100k.eval.run -t ins_seg -g <真实标注路径> -r <预测结果路径>
应用场景
BDD100K广泛应用于以下领域:
自动驾驶系统研发:训练自动驾驶汽车的感知模块,提升在复杂环境中的判断能力。
计算机视觉算法优化:通过大量数据验证新的检测、分割和分类算法。
智能交通研究:分析交通流模式,预测风险和优化路网设计。
学术研究:为相关领域的学术论文提供实验基础和基准数据集。
项目优势
- 全面性:覆盖从2D检测到3D姿态估计的完整自动驾驶感知任务链
- 一致性:所有任务使用统一的标注格式和评估标准
- 可扩展性:模块化设计支持自定义任务和评估指标
- 社区支持:活跃的开源社区和持续更新维护
BDD100K为自动驾驶研究者提供了从数据处理到模型评估的完整工具链,是推动自动驾驶技术发展的重要基础设施。通过参与和使用这个项目,研究者可以更快地验证算法性能,加速自动驾驶技术的实际应用。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00

