PDFArranger在Windows系统下导出PDF缓慢问题的技术分析

2025-06-15 09:38:00作者：姚月梅Lane

Small python-gtk application, which helps the user to merge or split PDF documents and rotate, crop and rearrange their pages using an interactive and intuitive graphical interface.

项目地址：https://gitcode.com/gh_mirrors/pd/pdfarranger

问题现象

近期有用户反馈，在Windows 10/11系统上使用PDFArranger 1.11.0版本时，导出PDF文件会出现严重延迟现象。具体表现为：当用户尝试导出合并后的PDF文件时，程序会长时间卡住，CPU和内存占用率居高不下（内存使用量可达3-4GB），整个过程可能需要20分钟才能完成。值得注意的是，这一问题在1.10.0及更早版本中并不存在。

问题根源

经过多位开发者和用户的深入排查，发现该问题与以下因素密切相关：

语言设置影响：当PDFArranger界面语言设置为中文（zh_CN/zh_TW）、日文（ja）或韩文（kr）等亚洲语言时，问题必定复现；而使用英文（en）或西班牙文（es）时则运行正常。
内存分配异常：在亚洲语言环境下，程序会异常占用大量内存（最高达4GB），导致导出过程极其缓慢。在内存不足的情况下，甚至会抛出"std::bad_alloc"内存分配错误。
版本依赖关系：通过版本比对测试，确认该问题自pikepdf 7.0.0版本开始引入，在pikepdf 6.2.6版本中不存在此问题。

技术细节分析

深入分析表明，该问题涉及多层技术栈的交互：

语言处理机制：PDFArranger 1.11.0新增了自动匹配Windows系统语言的功能（commit 7ddcfa3），这可能导致在某些语言环境下资源加载异常。
内存管理异常：在亚洲语言环境下，pikepdf库（7.0.0及以上版本）在进行PDF操作时会出现内存管理异常，表现为内存占用呈指数级增长。
热启动现象：有趣的是，当用户首次导出成功后，后续操作会变得流畅。这表明可能存在缓存机制或内存预分配优化。