PaddleOCR文本检测数据集标注规范详解

2025-05-01 06:20:24作者：邬祺芯Juliet

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

数据集标注格式要求

PaddleOCR文本检测模型训练需要特定的标注格式。标注文件应采用文本格式，每个图像对应一个同名的txt文件。标注内容包含文本区域的坐标信息和文本内容。

标注文件格式说明

每个标注行代表一个文本区域，格式如下：

x1,y1,x2,y2,x3,y3,x4,y4,transcription

其中：

(x1,y1)到(x4,y4)表示文本区域的四个顶点坐标，按顺时针或逆时针顺序排列
transcription字段是文本内容，如果不需要识别文本内容，可以设置为"###"

实际标注示例

假设有一张名为"img_001.jpg"的图像，包含两个文本区域，其标注文件"img_001.txt"内容如下：

100,200,300,200,300,300,100,300,PaddleOCR
400,500,600,500,600,600,400,600,###

标注注意事项

坐标点必须按顺序连接形成闭合四边形
对于模糊或不可识别的文本，transcription应标记为"###"
坐标值应为整数，表示像素位置
建议使用专业的标注工具如LabelImg等生成标注文件

数据集组织建议

完整的训练数据集应按照以下结构组织：

dataset/
├── train/
│   ├── img_001.jpg
│   ├── img_001.txt
│   ├── img_002.jpg
│   └── img_002.txt
└── val/
    ├── img_003.jpg
    └── img_003.txt

模型训练准备

准备好标注数据集后，需要在配置文件中指定数据集路径和格式。PaddleOCR提供了完整的训练流程，用户只需按照上述格式准备数据即可开始模型微调。

通过遵循这些标注规范，用户可以有效地为PaddleOCR文本检测模型准备训练数据，实现模型性能的提升和特定场景的优化。

PaddleOCR

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

984

PaddleOCR文本检测数据集标注规范详解

数据集标注格式要求

标注文件格式说明

实际标注示例

标注注意事项

数据集组织建议

模型训练准备

热门内容推荐

最新内容推荐

项目优选

PaddleOCR文本检测数据集标注规范详解

数据集标注格式要求

标注文件格式说明

实际标注示例

标注注意事项

数据集组织建议

模型训练准备

相关内容推荐

热门内容推荐

最新内容推荐

项目优选