PDFMiner.six项目解析：PDF文本提取中的字典构造错误问题

2025-06-02 07:37:18作者：乔或婵

背景介绍

PDFMiner.six是一个用于从PDF文档中提取文本信息的Python工具库。在实际应用中，用户LB207在尝试从Lloyds银行2023年度报告PDF文档中提取第69页内容时，遇到了一个PSSyntaxError错误，提示"Invalid dictionary construct"。

当用户使用extract_text函数提取特定PDF页面时，系统报错显示字典构造无效。错误信息表明在处理PDF内部数据结构时，遇到了一个格式不正确的字典项，其中包含被错误分割的布尔值"true"。

这个问题的根源在于PDF文档内部使用了特定的数据结构和编码方式。在PDF规范中，字典是一种基本的数据结构，由键值对组成。在本案例中，错误发生在解析以下字典结构时：

[/'CS', <PDFObjRef:113318>, /'I', False, /'K', /b'tr', /b'ue', /'S', /'Transparency', /'Type', /'Group']

可以看到，原本应该是完整布尔值"true"的地方，被错误地分割成了两部分：/b'tr'和/b'ue'。这种分割导致解析器无法正确识别这个布尔值，从而抛出语法错误。

开发团队在后续版本中修复了这个问题。修复的核心思路是：

用户可以通过升级到最新版本的PDFMiner.six（包含修复commit a6cb471）来解决这个问题。测试表明，在修复后的版本中，能够成功提取目标PDF第69页的文本内容，包括"Equity Investments and Central Items"等财务数据。

对于PDF文本提取工作，建议用户：

PDF文档解析是一个复杂的过程，经常会遇到各种边界情况。PDFMiner.six项目团队通过持续改进，解决了这个字典构造解析问题，提升了工具的稳定性和兼容性。用户只需保持工具更新，就能获得更好的文本提取体验。

登录后查看全文