PyMuPDF中如何正确检测PDF文档中的粗体文本

2025-05-31 09:38:23作者：彭桢灵Jeremy

在PDF文档处理过程中，准确识别文本样式（如粗体、斜体等）是一项常见需求。本文将以PyMuPDF库为例，深入探讨如何正确检测PDF中的粗体文本，并分析相关技术细节。

粗体检测的基本原理

PyMuPDF提供了两种主要方式来判断文本是否为粗体：

通过字体标志位检测
正确的检测方法应该使用位运算flags & 16（即2的4次方），而不是原问题中使用的flags & 2。这是因为在PDF规范中，粗体标志位实际上是第4位（从0开始计数）。
通过字体名称判断
某些字体名称本身就包含了样式信息，例如"CMBX10"中的"B"通常表示Bold（粗体），"X"表示扩展版本。这类命名约定在TeX/LaTeX生成的文档中尤为常见。

实际应用中的建议

双重验证机制
对于可靠性要求高的场景，建议同时检查字体标志位和字体名称。虽然理论上两者应该一致，但在某些特殊情况下可能会出现不一致的情况。
字体命名规范
虽然PyMuPDF文档中没有明确列出所有字体命名规则，但实践中可以注意以下常见模式：
- "B"或"Bold"通常表示粗体
- "I"或"Italic"通常表示斜体
- "BI"或"BoldItalic"表示粗斜体
处理特殊情况
对于自定义字体或非标准命名字体，标志位检测可能更为可靠。同时要注意某些文档可能使用加粗效果（如多次绘制）而非真正的粗体字体来实现视觉上的粗体效果。

示例代码改进

以下是改进后的粗体检测代码示例：

import fitz  # PyMuPDF

def is_bold(span):
    """检测文本是否为粗体"""
    # 方法1：检查标志位
    flag_bold = bool(span['flags'] & 16)
    
    # 方法2：检查字体名称
    font_bold = any(x in span['font'].lower() for x in ['b', 'bold'])
    
    return flag_bold or font_bold