PaddleOCR项目PyInstaller打包问题深度解析与解决方案

2026-02-04 04:41:06作者：郁楠烈Hubert

飞桨多语言OCR工具包（实用超轻量OCR系统，支持80+种语言识别，提供数据标注与合成工具，支持服务器、移动端、嵌入式及IoT设备端的训练与部署） Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

项目地址：https://gitcode.com/paddlepaddle/PaddleOCR

背景介绍

PaddleOCR作为一款优秀的OCR识别工具，在实际应用中经常需要被打包成可执行文件以便部署。然而在使用PyInstaller进行打包时，开发者经常会遇到各种依赖问题和运行时错误。本文将系统性地分析这些问题的根源，并提供完整的解决方案。

常见问题现象

开发者在使用PyInstaller打包PaddleOCR项目时，通常会遇到以下错误提示：

RuntimeError: `OCR` requires additional dependencies. To install them, run `pip install "paddlex[ocr]==<PADDLEX_VERSION>"` if you're installing `paddlex` from an index, or `pip install -e "/path/to/PaddleX[ocr]"` if you're installing `paddlex` locally.

这个错误表明打包后的程序无法正确识别PaddleOCR所需的依赖项。

问题根源分析

经过深入分析，我们发现这个问题主要由以下几个因素导致：

PaddleX的依赖分组设计：PaddleX采用了依赖分组(extra)的设计，在打包时需要将附加依赖一并打包。
元数据缺失：PyInstaller在打包时未能正确包含包的元数据信息，导致运行时无法完成importlib元数据检查。
动态依赖检查机制：PaddleX在运行时通过deps.py进行依赖检查，而打包后的环境无法提供完整的依赖信息。

完整解决方案

1. 基础打包命令

经过多次验证，以下命令可以成功打包PaddleOCR项目：

pyinstaller test.py \
--collect-data paddlex \
--copy-metadata ftfy \
--copy-metadata imagesize \
--copy-metadata lxml \
--copy-metadata opencv-contrib-python \
--copy-metadata openpyxl \
--copy-metadata premailer \
--copy-metadata pyclipper \
--copy-metadata pypdfium2 \
--copy-metadata scikit-learn \
--copy-metadata shapely \
--copy-metadata tokenizers \
--copy-metadata einops \
--copy-metadata jinja2 \
--copy-metadata regex \
--copy-metadata tiktoken \
--add-binary "path_to_your_site-packages/paddle/libs;." \
--hidden-import "scipy._cyutility"

2. 使用spec文件打包

对于更复杂的项目，建议使用spec文件进行打包配置：

# -*- mode: python ; coding: utf-8 -*-
import os
from PyInstaller.utils.hooks import collect_data_files, copy_metadata
from PyInstaller.building.api import PYZ, EXE, COLLECT

block_cipher = None
BASE_DIR = os.path.abspath('.')

binaries = [
    (r'path_to_paddle_libs', '.'),  
]

datas = (
    collect_data_files("paddlex") +
    collect_data_files("Cython", includes=["Utility/*.c", "Utility/*.cpp", "Utility/*.h", "Utility/*.pxd","Utility/*.pyx"]) +
    copy_metadata("ftfy") +
    copy_metadata("imagesize") +
    copy_metadata("lxml") +
    copy_metadata("opencv-contrib-python") +
    copy_metadata("openpyxl") +
    copy_metadata("premailer") +
    copy_metadata("pyclipper") +
    copy_metadata("pypdfium2") +
    copy_metadata("scikit-learn") +
    copy_metadata("shapely") +
    copy_metadata("tokenizers") +
    copy_metadata("einops") +
    copy_metadata("jinja2") +
    copy_metadata("regex") +
    copy_metadata("tiktoken") +
    [('models/.keep', 'models'), ('assets/.keep', 'assets')]
)

hiddenimports = ['scipy._cyutility']

a = Analysis(
    ['test.py'],
    pathex=[BASE_DIR],
    binaries=binaries,
    datas=datas,
    hiddenimports=hiddenimports,
    hookspath=[],
    hooksconfig={},
    runtime_hooks=[],
    excludes=[],
    noarchive=False,
    cipher=block_cipher,
)

pyz = PYZ(a.pure, a.zipped_data, cipher=block_cipher)

exe = EXE(
    pyz,
    a.scripts,
    a.binaries,
    a.datas,
    [],
    name='paddleocr',
    debug=False,
    bootloader_ignore_signals=False,
    strip=False,
    upx=True,
    upx_exclude=[],
    runtime_tmpdir=None,
    console=True, 
)

coll = COLLECT(
    exe,
    a.binaries,
    a.zipfiles,
    a.datas,
    strip=False,
    upx=True,
    name='paddleocr'
)