PyMuPDF在ARM64架构下文本提取段错误问题分析与解决

2025-05-31 23:48:30作者：段琳惟

问题背景

PyMuPDF是一个功能强大的Python PDF处理库，基于MuPDF引擎开发。近期在ARM64、PPC64EL和RISC-V64等架构上，用户报告了一个严重的段错误问题：当调用get_text()方法提取PDF文本内容时，程序会直接崩溃。

问题表现

该问题表现为当执行以下典型代码时出现段错误：

import pymupdf
doc = pymupdf.open("example.pdf")
doc[0].get_text()  # 此处触发段错误

通过GDB调试工具分析，发现崩溃发生在MuPDF的C++绑定层，具体是在FzStextPageIterator构造函数的执行过程中。错误提示表明程序试图访问非法内存地址。

根本原因

经过深入分析，发现问题根源在于MuPDF C++绑定库的构建配置不一致。具体表现为：

NDEBUG宏定义不一致：MuPDF核心C库构建时使用了-DNDEBUG标志（表示发布模式），而C++绑定库构建时未定义该标志（表示调试模式）
ABI兼容性问题：在调试模式下，MuPDF的C++包装类会包含额外的析构函数和静态成员，以及运行时检查代码，这导致与发布模式编译的库产生二进制接口不兼容
架构特殊性：该问题在x86架构上可能不会立即显现，但在ARM64等架构上由于内存对齐和访问方式的差异，会直接导致段错误

解决方案

解决该问题的关键在于确保MuPDF所有组件构建时使用一致的NDEBUG定义。具体修复方法为：

在构建MuPDF时，为C++绑定库明确指定XCXXFLAGS=-DNDEBUG编译标志
确保PyMuPDF构建时链接的MuPDF库全部采用一致的构建模式

修改后的构建命令示例如下：

make build=debug shared=yes OS=Linux \
    XCFLAGS="$(CFLAGS)" \
    XLDFLAGS="$(LDFLAGS)" \
    XCXXFLAGS="-DNDEBUG"

技术启示

跨架构兼容性：不同CPU架构对内存访问和错误处理的行为差异可能导致在x86上正常运行的代码在其他架构上崩溃
构建一致性：混合使用调试模式和发布模式构建的库组件可能引发难以排查的运行时问题
ABI稳定性：C++库的二进制接口对构建参数非常敏感，需要确保所有依赖组件使用相同的编译标志

验证与效果

经过实际测试验证：

在ARM64设备上重现了原始问题
应用修复后，文本提取功能恢复正常
相同修复方案也适用于PPC64EL和RISC-V64架构

该解决方案已在实际生产环境中得到验证，有效解决了PyMuPDF在多架构平台上的文本提取功能稳定性问题。

PyMuPDF

PyMuPDF is a high performance Python library for data extraction, analysis, conversion & manipulation of PDF (and other) documents.

项目地址：https://gitcode.com/gh_mirrors/py/PyMuPDF

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。