X-AnyLabeling项目中如何实现增量式AI预标注

2025-06-08 09:25:12作者：乔或婵

Effortless data labeling with AI support from Segment Anything and other awesome models.

项目地址：https://gitcode.com/gh_mirrors/xa/X-AnyLabeling

在目标检测任务的数据标注过程中，经常会遇到需要新增检测类别的情况。传统做法往往需要重新标注所有数据，这不仅耗时耗力，还可能导致已有标注信息的丢失。X-AnyLabeling项目提供了基于GroundingDino的AI预标注功能，但默认会覆盖已有标注结果。本文将介绍如何通过修改源码实现增量式预标注，保留已有标注的同时新增类别标注。

增量标注的需求场景

假设我们已经完成了100张图片的基础标注工作，包含了如鼠标、显示器等常见办公物品的标注。现在需要新增"键盘"这一检测类别。理想的工作流程是：

保留已有的鼠标、显示器等标注结果
仅对键盘这一新增类别进行AI预标注
人工校验和修正预标注结果

这种增量式标注方式可以显著提升标注效率，避免重复劳动。

技术实现原理

X-AnyLabeling项目中，GroundingDino预标注功能的默认行为是替换(replace)所有现有标注。要实现增量标注，关键在于修改这一行为模式。

在项目的自动标注服务模块中，GroundingDino相关的实现代码控制着标注结果的写入方式。通过将replace参数设置为False，可以改变标注结果的合并策略，使新标注结果与现有标注共存而非覆盖。

具体实现方法

要实现这一功能，需要定位到项目中的自动标注服务实现文件。在该文件中找到GroundingDino相关的标注结果处理部分，将标注结果写入时的replace参数显式设置为False。

修改后的代码逻辑将：

读取现有标注结果
执行新增类别的AI预标注
将新标注结果与现有标注合并
保存合并后的完整标注结果

注意事项

类别冲突处理：当新增标注与现有标注在空间上有重叠时，需要根据业务需求决定保留策略
性能考虑：增量标注会增加内存使用，在处理大规模数据集时需要注意
结果验证：合并后的标注结果需要进行人工校验，确保标注质量

总结

通过简单的参数调整，X-AnyLabeling项目可以支持更加灵活的增量式AI预标注工作流。这种方法特别适合以下场景：

逐步扩展检测类别
多人协作标注
标注标准的迭代更新

这种技术方案不仅提升了标注效率，也更好地保护了已有标注工作的成果，是数据标注工程中的一项实用技巧。

Effortless data labeling with AI support from Segment Anything and other awesome models.

项目地址：https://gitcode.com/gh_mirrors/xa/X-AnyLabeling

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统