坐标对齐失效？彻底修复 OCR 识别结果“满天星”的合并逻辑

2026-04-26 11:44:54作者：翟萌耘Ralph

在处理一些表格、表单或者是带有特殊排版的文档时，很多开发者会遇到一个让人崩溃的现象：识别结果虽然文字全对，但在输出的 CSV 或 TXT 文件里，本该在同一行的文字却像“满天星”一样随机跳行，甚至两个字之间隔了十几个空格。

作为架构师，我得告诉你，这通常不是 OCR 模型识别错了坐标，而是 Umi-OCR 在后处理阶段对“行”的判定过于敏感。如果你的图片稍微有一点点歪斜（哪怕只有 0.5°），或者字符的高度不一，默认的几何合并算法就会认为它们不属于同一逻辑行，导致输出结果细碎化。

💡 报错现象总结：用户在导出结果时反馈“文本块顺序错乱”或“同一行内容被拆分到多行”。本质原因是 mission_ocr.py 中的 line_tolerance（行公差）阈值固定，无法适配高分辨率或透视变形明显的图片，导致几何重心偏移量超出了合并阈值。

几何合并的黑盒：为什么 0.1 像素的误差会毁掉整行？

Umi-OCR 在获取到各个文本框（Box）的 8 个顶点坐标后，会进行一次聚类操作。它的逻辑是：寻找 Y 轴坐标接近的块，并将它们归为一行。

逻辑缺陷分析：为什么默认算法在复杂排版下会翻车？

场景特点	默认逻辑表现	预期逻辑	架构师建议
微小倾斜	判定为阶梯状换行	自动检测倾角并投影对齐	引入 Affine 仿射变换预校正
字符大小不等	高度不一致导致重心偏移	以基准线（Baseline）为准合并	改用 Box 底部对齐判定
多栏混排	左右栏内容由于 Y 轴重合被强行拉平	建立垂直空白隔离区（Gaps）	开启多栏聚类分析
高分辨率图片	固定像素阈值显得太小，极易拆行	按字高的百分比动态设定阈值	阈值参数与字高（Mean Height）挂钩

在 py_src/mission/mission_ocr.py 的源码逻辑里，合并逻辑往往依赖于一个简单的 Y 轴差值判断。对于 4K 级别的扫描件，一个字的波动可能就有几个像素，直接超过了默认的硬编码阈值。

源码修正：实现基于“动态比例”的行合并算法

要修复这个问题，我们需要把死板的像素阈值改成根据当前图片字符平均高度动态计算的“柔性阈值”。

# 模拟对 Umi-OCR 行合并逻辑的硬核重构
def smart_merge_strategy(boxes, height_ratio=0.5):
    # 架构师技巧：先计算全局平均字高，而不是用固定值
    avg_height = np.mean([abs(b[3][1] - b[0][1]) for b in boxes])
    dynamic_threshold = avg_height * height_ratio
    
    # 按照 Y 轴坐标排序后进行贪心合并
    lines = []
    for box in sorted_boxes:
        if abs(box.y - current_line.y) < dynamic_threshold:
            current_line.append(box)
        else:
            lines.append(current_line)
            
    # 痛点：默认逻辑忽略了倾斜角度
    # 修正方案：在计算 Y 轴差值前，先进行坐标旋转校正
    return lines