manga-image-translator项目中OCR气泡合并问题的分析与解决方案

2025-05-30 23:46:34作者：秋泉律Samson

问题背景

在漫画翻译工具manga-image-translator的实际应用中，开发者发现了一个关于OCR文字识别的重要问题：当漫画中的对话气泡相互接触或距离过近时，OCR引擎可能会错误地将它们合并识别为一个整体。这种情况在竖排文字中尤为明显，会导致后续翻译处理出现错误。

问题分析

通过实际案例观察，相连气泡被合并的问题主要源于文本行合并(textline_merge)算法中的参数设置。该算法默认配置可能过于宽松，导致在以下情况下会将相邻气泡误判为同一文本区域：

气泡间距小于设定的阈值
气泡角度差异较小(小于0.1π弧度)

这种设计初衷是为了处理同一气泡内多行文本的情况，但在处理实际漫画中相邻但独立的气泡时会产生误判。

解决方案

经过技术验证，可以通过调整以下关键参数来解决气泡错误合并的问题：

sigma参数：控制气泡间距的基础阈值
gamma参数：作为间距阈值的乘数因子
角度阈值：当前硬编码为0.1π(约18度)

具体调整建议：

减小sigma值可降低基础间距阈值
减小gamma值可缩小允许合并的间距范围
对于竖排文字，这些调整效果尤为显著

技术实现细节

在代码层面，合并判断逻辑主要基于以下条件：

if bboxes[connected_region_indices[0]].distance(bboxes[connected_region_indices[1]]) < (1 + gamma) * fs \
    and abs(bboxes[connected_region_indices[0]].angle - bboxes[connected_region_indices[1]].angle) < 0.1 * np.pi:
    return [set(connected_region_indices)]
else:
    return [set([connected_region_indices[0]]), set([connected_region_indices[1]])]