PaddleOCR训练过程中RecursionError问题分析与解决

2025-05-01 07:29:59作者：宣利权Counsellor

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

问题现象

在使用PaddleOCR进行自定义数据集训练时，开发者遇到了"RecursionError: maximum recursion depth exceeded in comparison"错误。具体表现为在解析训练数据时出现数组越界错误，提示"IndexError: list index out of range"。

问题原因分析

经过深入分析，这类问题通常由以下几个原因导致：

训练数据格式不规范：PaddleOCR对训练数据文件(training.txt)有严格的格式要求，必须是"图片路径\t标签\n"的格式。如果格式不正确，解析时就会出现问题。
字典文件配置缺失：在训练配置中，character_dict_path参数未正确设置或路径错误，导致字符字典加载失败。
数据量过少：虽然问题中提到的数据集只有几张图片，但这通常不会直接导致递归错误，更多会影响模型训练效果。
ext_data配置问题：从错误信息看，程序在尝试获取额外数据(ext_data)时失败，可能与配置文件中的相关设置有关。

解决方案

1. 检查训练数据格式

确保training.txt文件格式完全符合要求：

每行格式为：图片绝对路径 + 制表符(\t) + 标签内容 + 换行符(\n)
路径和标签之间必须使用制表符分隔，不能使用空格
检查文件编码，推荐使用UTF-8无BOM格式

2. 验证字典文件配置

在训练配置yml文件中：

确认character_dict_path参数已正确设置
检查字典文件路径是否正确
确保字典文件包含训练数据中出现的所有字符

3. 调整ext_data配置

如果不需要使用额外数据：

在配置文件中将use_ext_data设置为False
或者确保ext_data相关配置正确无误

4. 其他建议

增加训练数据量：虽然少量数据不会直接导致此错误，但建议至少准备数百张图片以获得较好的训练效果
检查图片路径是否包含中文或特殊字符，这有时会导致解析问题
验证图片文件是否都能正常打开，损坏的图片文件可能导致解析异常

技术原理

PaddleOCR在数据加载时，会递归地解析训练文件并构建数据管道。当遇到格式错误的数据行时，可能导致递归深度不断增加，最终触发Python的递归深度保护机制。正确的数据格式和配置是保证训练流程顺利进行的基础。

总结

PaddleOCR训练过程中的递归错误通常源于数据格式问题而非数据量大小。开发者应重点检查训练数据的格式规范性和配置文件参数完整性。通过规范数据准备流程和仔细检查配置参数，可以有效避免此类问题的发生。

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统