终极指南：如何快速上手Doccano开源标注工具

2026-01-16 10:41:56作者：董斯意

Doccano是一款功能强大的开源文本标注工具，专为机器学习从业者设计，支持文本分类、序列标注、序列到序列等多种标注任务。无论你是NLP初学者还是资深研究人员，都能通过Doccano轻松创建高质量的标注数据集。😊

🔥 为什么选择Doccano？

Doccano让数据标注变得简单高效：

多任务支持：文本分类、命名实体识别、情感分析等
协作标注：支持团队多人同时标注
RESTful API：便于集成到现有工作流
多语言界面：满足国际化团队需求

🚀 快速安装Doccano

方法一：pip安装（最简单）

这是最推荐的安装方式，只需几步即可完成：

pip install doccano

安装完成后，按顺序执行以下命令：

# 初始化数据库（首次运行）
doccano init

# 创建管理员账户
doccano createuser --username admin --password password

# 启动Web服务器
doccano webserver --port 8000

在另一个终端中运行任务队列：

doccano task

完成后访问 http://localhost:8000 即可开始使用！

方法二：Docker安装

如果你熟悉Docker，这种方式更加便捷：

docker pull doccano/doccano
docker container create --name doccano \
  -e "ADMIN_USERNAME=admin" \
  -e "ADMIN_PASSWORD=password" \
  -p 8000:8000 doccano/doccano
docker container start doccano

📝 完整使用流程

第一步：创建新项目

登录Doccano后，首先需要创建一个项目。点击"Create Project"按钮，填写项目信息：

关键配置项包括：

项目名称：清晰描述项目目的
项目类型：选择适合的任务类型（文本分类、序列标注等）
项目描述：详细说明项目背景和需求

第二步：定义标签体系

在开始标注前，需要先定义标签。Doccano支持灵活的标签管理：

你可以为每个标签设置：

标签名称：如"Person"、"Location"等
快捷键：提高标注效率
颜色标识：便于视觉区分

第三步：导入待标注数据

Doccano支持多种数据格式导入：

支持的格式包括：

纯文本文件
JSON格式
CoNLL格式等

第四步：开始文本标注

进入标注界面后，你可以看到清晰的标注工作区：

标注过程非常简单：

选择文本片段
点击对应标签或使用快捷键
不同标签以不同颜色高亮显示

第五步：导出标注结果

完成标注后，可以将结果导出为多种格式：

导出的数据可直接用于：

训练机器学习模型
数据分析和可视化
团队共享和协作

💡 高级功能与技巧

使用PostgreSQL数据库

对于生产环境，建议使用PostgreSQL：

pip install 'doccano[postgresql]'
export DATABASE_URL="postgres://user:password@localhost:5432/dbname"

团队协作标注

Doccano支持多人协作：

分配不同标注任务
统一标注标准
实时进度监控

🎯 最佳实践建议

标签设计要合理：避免标签过多或过少
标注规范要明确：确保团队成员理解一致
定期备份数据：避免意外数据丢失

🔧 故障排除

常见问题及解决方案：

端口冲突：更换端口号 --port 8080
数据库问题：重新运行 doccano init
任务队列异常：检查 doccano task 是否正常运行

📚 扩展学习资源

官方文档：docs/install_and_upgrade_doccano.md
项目源码：backend/ 和 frontend/ 目录
社区支持：通过GitHub Issues获取帮助

Doccano作为一款优秀的开源标注工具，为机器学习项目提供了强大的数据准备支持。通过本指南，相信你已经掌握了Doccano的安装和使用方法，可以立即开始你的数据标注之旅！✨

doccano

Open source annotation tool for machine learning practitioners.

项目地址：https://gitcode.com/gh_mirrors/do/doccano

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.03 K

646