知识图谱数据标注新范式：用doccano搞定实体链接

2026-02-05 04:40:43作者：宗隆裙

你还在为知识图谱构建时的实体链接数据烦恼？标注效率低、格式不统一、团队协作难？本文手把手教你用doccano完成实体链接标注，10分钟上手，让知识图谱数据准备不再繁琐。读完你将掌握：实体链接项目创建、标签体系设计、批量标注技巧和数据导出全流程。

为什么选择doccano做实体链接标注

实体链接（Entity Linking）是知识图谱构建的核心步骤，需要将文本中的实体提及与知识库中的唯一标识关联。传统Excel标注存在效率低、易出错、无法可视化等问题。doccano作为开源数据标注平台，提供直观的界面和协作功能，完美解决这些痛点。

项目核心功能模块：

实体类型定义：label_types/models.py
标注数据管理：examples/views/example.py
团队协作权限：roles/views.py

准备工作：环境部署与项目结构

确保已部署doccano环境，项目目录结构如下：

doccano/
├── backend/            # 后端服务
├── frontend/           # 前端界面
└── docs/               # 文档资源
    └── images/tutorial/ # 教程截图

官方部署指南：安装文档

Step 1: 创建实体链接标注项目

登录系统后点击右上角"New Project"
选择"Sequence Labeling"项目类型
填写项目名称"知识图谱实体链接"，添加描述
勾选"Allow overlapping entities"支持嵌套实体

项目配置文件路径：projects/models.py

Step 2: 定义实体标签体系

实体链接需要至少两类标签：实体类型（如Person、Organization）和链接关系（如belongs_to、located_in）。

进入项目设置页，选择"Label Types"
创建实体标签：
- 标签名：Person，颜色#FF5733
- 标签名：Organization，颜色#33FF57
创建关系标签：
- 标签名：belongs_to，颜色#3357FF

标签管理模块：labels/views.py

Step 3: 导入待标注数据

支持JSON、CSV、TXT等格式导入，推荐JSONL格式：

{"text": "爱因斯坦在普林斯顿大学工作"}
{"text": "苹果公司总部位于库比蒂诺"}

进入"Data Import"页面
选择文件并点击"Import"
等待导入完成（大型文件可查看异步任务）

Step 4: 实体链接标注实操

进入标注界面，选择一段文本
选中实体"爱因斯坦"，选择标签"Person"
在右侧链接面板输入知识库ID（如DBpedia:Albert_Einstein）
重复标注"普林斯顿大学"为Organization类型

标注快捷键设置：前端配置

Step 5: 数据导出与知识图谱构建

完成标注后导出为JSON格式，包含实体位置、类型和链接信息：

{
  "text": "爱因斯坦在普林斯顿大学工作",
  "entities": [
    {"start": 0, "end": 3, "label": "Person", "link": "DBpedia:Albert_Einstein"},
    {"start": 5, "end": 12, "label": "Organization", "link": "DBpedia:Princeton_University"}
  ]
}