PaddleOCR中RE模型训练报错分析与解决方案

2025-05-01 23:54:49作者：翟萌耘Ralph

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

问题背景

在使用PaddleOCR进行关系抽取(RE)模型训练时，用户遇到了一个典型的错误。该错误发生在Windows环境下，使用自定义数据集训练RE模型时，而序列标注(SER)模型训练则正常。错误信息显示在处理Tensor索引时出现了类型不匹配的问题。

错误分析

核心错误信息表明："Tensor.indices() only allows indexing by Integers, Slices, Ellipsis, None, tuples of these types and list of Bool and Integers, but received str in 1th slice item"。这个错误发生在LayoutXLM模型的build_relation方法中，当尝试使用字符串作为索引访问Tensor时。

深入分析发现，错误源于数据处理阶段。RE模型需要处理实体间的关系，而当前实现中可能错误地将字符串类型作为了Tensor的索引。这与Paddle框架的Tensor索引规范不符，Paddle仅支持整数、切片等特定类型作为索引。

可能原因

数据集格式问题：虽然用户提供的JSON标注格式看似正确，但可能存在细微差别。特别是"linking"字段的处理方式可能与模型预期不符。
环境兼容性问题：Windows环境下路径处理、文件读取方式可能与Linux有差异，导致数据处理流程出现偏差。
版本不匹配：用户使用的是Paddle 2.3.0和PaddleOCR 2.4.0，可能存在版本兼容性问题。
自定义数据集适配：官方示例使用XFUND数据集，而用户使用自定义数据集时可能缺少必要的预处理步骤。

解决方案

数据集验证：
- 确保标注文件中每个实体都包含完整的字段：transcription、points、id、label和linking
- linking字段应使用数字ID表示关系，而非字符串
- 检查所有边界框坐标是否有效
环境配置调整：
- 建议使用Python 3.8或3.9环境
- 确保PaddlePaddle与PaddleOCR版本匹配
- 考虑在Linux环境下测试，排除操作系统差异影响
代码调试：
- 在ppocr/modeling/backbones/vqa_layoutlm.py文件中添加调试输出，检查输入数据的格式
- 验证数据加载器输出的batch数据是否符合模型预期
替代方案：
- 先使用官方XFUND数据集验证训练流程
- 确认基础功能正常后再迁移到自定义数据集
- 考虑使用更简单的模型结构进行初步测试