LabelImg新手教程:30分钟从零掌握图像标注工具使用
你还在为找不到简单好用的图像标注工具而烦恼吗?还在为标注数据花费大量时间吗?本文将带你30分钟从零掌握LabelImg这款强大的图像标注工具,让你轻松搞定目标检测数据集制作。读完本文,你将学会LabelImg的安装方法、基本操作流程、快捷键使用以及标注格式转换等实用技能,让你的标注工作效率提升50%。
什么是LabelImg
LabelImg是一款开源的图像标注工具,它使用Python语言开发,采用Qt框架构建图形界面,支持PASCAL VOC、YOLO和CreateML等多种标注格式。这款工具由Tzutalin开发,目前已成为Label Studio社区的一部分,广泛应用于目标检测、图像分类等计算机视觉任务的数据标注工作中。
LabelImg的主要功能特点包括:
- 支持矩形框标注
- 多种标注格式导出
- 自定义标签类别
- 丰富的快捷键操作
- 跨平台支持(Windows、Linux、Mac)
安装LabelImg
系统要求
LabelImg支持Windows、Linux和Mac OS三大操作系统,需要Python 3.0或更高版本。本文以Linux系统为例进行安装说明,其他系统的安装方法类似。
安装方法
通过PyPI安装(推荐)
这是最简单的安装方法,只需在终端中执行以下命令:
pip3 install labelImg
labelImg
从源码安装
如果你需要最新版本的功能,可以选择从源码安装:
- 首先克隆仓库:
git clone https://gitcode.com/gh_mirrors/labe/labelImg.git
cd labelImg
- 安装依赖:
sudo apt-get install pyqt5-dev-tools
sudo pip3 install -r requirements/requirements-linux-python3.txt
- 编译并运行:
make qt5py3
python3 labelImg.py
验证安装
安装完成后,在终端输入labelImg命令,如果能成功启动程序并显示主界面,则说明安装成功。
LabelImg界面介绍
LabelImg的界面主要由以下几个部分组成:
- 菜单栏:包含文件、编辑、视图、帮助等菜单
- 工具栏:提供常用操作的快捷按钮
- 图像显示区:显示当前正在标注的图像
- 标签列表:显示当前图像的所有标注标签
- 文件列表:显示当前打开的图像文件列表
主要功能区域说明:
- 菜单栏:提供所有操作命令的入口
- 工具栏:包含打开文件、保存标注、创建矩形框等常用工具
- 图像显示区:是标注工作的主要区域,用户在此绘制矩形框
- 标签列表:显示当前图像中所有标注对象及其类别
- 文件列表:方便用户在多个图像文件之间切换
标注流程
基本标注步骤(PASCAL VOC格式)
- 启动LabelImg后,点击菜单栏的"File" -> "Open Dir",选择存放图像的文件夹
- 点击"Change default saved annotation folder"设置标注文件的保存路径
- 点击工具栏的"Create RectBox"按钮(或按快捷键
w)进入矩形框绘制模式 - 在图像上点击并拖动鼠标,绘制包含目标对象的矩形框
- 释放鼠标后,会弹出标签输入对话框,输入目标类别名称
- 重复步骤3-5,标注图像中的所有目标对象
- 点击"Save"按钮(或按快捷键
Ctrl+s)保存标注结果 - 点击"Next Image"按钮(或按快捷键
d)标注下一张图像
使用预定义类别
为了提高标注效率,你可以提前定义好常用的标签类别:
- 编辑
data/predefined_classes.txt文件,每行输入一个类别名称 - 重启LabelImg后,在标注时可以直接从下拉列表中选择类别
示例data/predefined_classes.txt内容:
person
car
bike
dog
cat
YOLO格式标注
如果你需要使用YOLO格式进行标注,可以按照以下步骤操作:
- 按照上述方法编辑
data/predefined_classes.txt文件,定义类别列表 - 点击工具栏中的"PascalVOC"按钮,切换为"YOLO"格式
- 按照正常流程进行标注,标注文件将以.txt格式保存
- 每个图像文件对应一个.txt文件,同时会生成一个"classes.txt"文件保存类别列表
快捷键使用
LabelImg提供了丰富的快捷键,可以显著提高标注效率。以下是常用的快捷键:
| 快捷键 | 功能描述 |
|---|---|
| Ctrl + u | 加载目录中的所有图像 |
| Ctrl + r | 更改标注文件保存目录 |
| Ctrl + s | 保存标注结果 |
| Ctrl + d | 复制当前标签和矩形框 |
| Ctrl + Shift + d | 删除当前图像 |
| Space | 将当前图像标记为已验证 |
| w | 创建矩形框 |
| d | 下一张图像 |
| a | 上一张图像 |
| del | 删除选中的矩形框 |
| Ctrl++ | 放大图像 |
| Ctrl-- | 缩小图像 |
| ↑→↓← | 移动选中的矩形框 |
掌握这些快捷键可以让你的标注速度提升一倍以上,建议多加练习,形成肌肉记忆。
高级功能
标注格式转换
LabelImg支持在不同标注格式之间切换,只需点击工具栏上的格式按钮即可切换,目前支持三种格式:
- PASCAL VOC:生成XML格式文件,适用于大多数目标检测框架
- YOLO:生成TXT格式文件,适用于YOLO系列模型
- CreateML:生成JSON格式文件,适用于Apple的CreateML框架
转换格式后,新保存的标注文件将采用新的格式,旧格式的文件不会被删除。
批量处理
LabelImg支持批量处理多个图像文件:
- 使用"Open Dir"打开包含多个图像的文件夹
- 使用"Next Image"和"Previous Image"导航
- 启用"Auto Save Mode"(在View菜单中)可自动保存当前图像的标注并跳转到下一张
标注可视化
要查看已标注的图像,可以按照以下步骤操作:
- 将标注文件复制到与图像相同的文件夹中
- 点击"File" -> "Open Dir"打开图像文件夹
- 选择图像文件,标注框和标签将自动显示在图像上
可以通过"View"菜单中的"Hide All Boxes"和"Show All Boxes"来切换标注框的显示状态。
常见问题解决
无法启动程序
如果启动LabelImg时遇到问题,可能是缺少依赖库。可以尝试重新安装依赖:
pip3 install --upgrade pyqt5 lxml
中文显示乱码
在Linux系统中,如果中文显示乱码,可以尝试安装中文字体:
sudo apt-get install ttf-wqy-zenhei
重置设置
如果程序出现异常,可以重置所有设置:
- 点击"File" -> "Reset All"
- 或者删除主目录下的配置文件:
rm ~/.labelImgSettings.pkl
总结与展望
通过本文的介绍,你已经掌握了LabelImg的基本使用方法,包括安装、界面介绍、标注流程、快捷键使用和高级功能。现在你可以开始使用LabelImg进行图像标注工作了,祝你工作顺利!
LabelImg作为一款经典的图像标注工具,虽然已经不再积极开发,但仍然是许多计算机视觉研究者和开发者的首选工具。如果你需要更高级的功能,可以关注其继任者Label Studio,它支持更多类型的数据标注,包括文本、音频、视频等。
最后,建议你多练习使用快捷键,自定义适合自己的标签类别,这样可以大大提高标注效率。如果你在使用过程中遇到问题,可以查阅官方文档或在社区寻求帮助。
参考资源
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00


