PaddleOCR模型转换中动态形状处理的技术演进

2025-05-01 09:50:12作者：何将鹤

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

背景介绍

在深度学习模型部署过程中，模型格式转换是一个关键环节。PaddleOCR作为业界广泛使用的OCR工具库，其模型通常需要从PaddlePaddle格式转换为ONNX格式以适应不同推理引擎的需求。在这个过程中，输入张量的形状处理尤为重要，特别是当需要处理可变长度输入时。

历史解决方案

早期版本的paddle2onnx工具提供了--input_shape_dict参数，允许用户直接指定输入张量的动态形状。例如，对于OCR识别模型，开发者可以使用类似{'x':[-1,3,32,320]}的语法来指定：

批处理维度为动态(-1)
通道数为固定值3
高度和宽度为32和320

这种方式简单直接，能够满足大多数动态形状处理的需求。然而，随着PaddlePaddle框架的升级，这种直接指定形状的方式被标记为已弃用(deprecated)。

技术演进原因

框架开发者移除了这一功能主要基于以下考虑：

架构演进：新版本PaddlePaddle移除了fluid模块，这是旧版形状处理功能的底层依赖
功能解耦：将形状处理与格式转换分离，使工具职责更单一
兼容性考虑：避免因形状处理导致的ONNX模型兼容性问题

当前最佳实践

目前推荐的解决方案是使用专门的形状修改工具PaddleUtils进行处理，具体步骤如下：

预处理阶段：使用paddle_infer_shape.py脚本修改Paddle模型输入形状

python paddle_infer_shape.py \
    --model_dir /path/to/model \
    --model_filename inference.pdmodel \
    --params_filename inference.pdiparams \
    --save_dir /path/to/output \
    --input_shape_dict="{'x':[1,3,32,320]}"

转换阶段：使用paddle2onnx进行标准格式转换

paddle2onnx \
    --model_dir /path/to/model \
    --model_filename inference.pdmodel \
    --params_filename inference.pdiparams \
    --save_file model.onnx \
    --opset_version 10