MinerU项目中数字百分比被误识别为公式的问题分析与解决方案

2025-05-04 05:27:12作者：齐冠琰

问题背景

在MinerU项目（一个PDF文档解析工具）的实际应用中，我们发现了一个影响金融和技术文档解析准确性的问题：工具会将文档中出现的数字加百分号组合（如"20%"）错误识别为数学公式。这种误识别会导致文本内容被错误地标记为公式类型，进而影响后续的文档处理流程。

问题表现

该问题在金融类PDF文档中尤为常见，例如在行业分析报告中经常出现的百分比数据。具体表现为：

类似"20%"这样的百分比数值被错误解析为LaTeX公式格式
某些情况下，连字符与百分比的组合（如"-8%"）也会被误识别
字母与百分比组合（如"a-20%"）可能被解析为包含偏微分符号的公式

技术分析

通过分析源代码，我们发现问题的根源在于MinerU的公式识别模块对于百分号的处理过于敏感。在magic-model.py文件的get_all_spans函数中，所有被分类为公式类别（category_id=13）的内容都会被默认标记为内联公式（InlineEquation），而没有针对常见的百分比数值进行特殊处理。

解决方案

针对这一问题，开发者提出了一个有效的修复方案，通过添加特定的正则表达式匹配规则来过滤掉常见的非公式百分比模式：

纯数字百分比模式（如"11.11%"）
包含@符号的数字模式（如"@1"）
美元符号数字模式（如"$11.111"）

实现方式是在公式识别置信度不高（score≤0.9）的情况下，增加额外的模式匹配检查。如果内容符合上述任一模式，则将其重新分类为普通文本而非公式。

实现代码

以下是具体的实现代码片段：

import re

# 在get_all_spans函数中添加以下逻辑
elif category_id == 13:
    span['content'] = layout_det['latex']
    
    if layout_det['score'] > 0.9:
        span['type'] = ContentType.InlineEquation
    else:
        pattern_nums_per = r"^\d+(\.\d+)?\\%$"  # 匹配11.11\%格式
        pattern_at_num = r"^.*@\d+$"  # 匹配\ @1格式
        pattern_usd_num = r"^\\\$\d+(\.\d+)?$"  # 匹配\$11.111格式
        
        if re.match(pattern_nums_per, span['content']) or \
           re.match(pattern_at_num, span['content']) or \
           re.match(pattern_usd_num, span['content']):
            span['type'] = ContentType.Text
        else:
            span['type'] = ContentType.InlineEquation