PaddleOCR在Paddle 3.0 Beta 2版本中启用PIR API的兼容性问题解析

2025-05-01 23:50:07作者：冯梦姬Eddie

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

问题背景

在使用PaddleOCR进行表格结构识别时，当启用Paddle 3.0 Beta 2版本的PIR API（FLAGS_enable_pir_api=1）时，测试用例会出现失败情况。具体表现为在运行表格结构识别相关测试时，系统抛出"InvalidArgumentError"错误，提示输入张量形状不匹配的问题。

问题现象

测试过程中发现，当设置FLAGS_enable_pir_api=1时，表格结构识别相关的4个测试用例全部失败，错误信息显示输入张量的形状不匹配。而当设置FLAGS_enable_pir_api=0时，所有测试用例均能正常通过。

技术分析

该问题主要与Paddle 3.0 Beta 2版本中引入的PIR（Program Intermediate Representation）API有关。PIR是PaddlePaddle新一代的中间表示形式，旨在提供更灵活、更高效的模型表示和执行方式。然而，在启用PIR API后，原有的SLANet表格识别模型与新API之间存在兼容性问题。

具体错误表明，在表格结构识别过程中，系统期望输入张量的形状一致，但实际接收到的输入形状存在差异。这可能是由于PIR API对模型输入输出的处理方式发生了变化，导致原有的模型在新API下无法正常工作。

解决方案

针对这一问题，可以采取以下解决方案：

重新导出SLANet模型：在Paddle 3.0 Beta 2环境下，使用FLAGS_enable_pir_api=1设置重新导出SLANet表格识别模型。这将确保模型与新的PIR API兼容。
修改预测器创建逻辑：在工具脚本中，对SLANet模型的预测器创建过程进行特殊处理。具体可以在utility.py文件中的create_predictor函数中添加判断逻辑，当检测到SLANet模型时，采用特定的配置路径。
环境变量控制：在PaddleOCR的表格结构识别功能中，可以通过环境变量动态控制PIR API的启用状态，确保在不同版本下的兼容性。