PaddleOCR检测与识别模型对下划线字符的支持分析

2025-05-01 11:33:53作者：俞予舒Fleming

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

背景介绍

PaddleOCR作为一款优秀的OCR开源工具，在文本检测和识别领域表现出色。然而在实际应用中，我们发现其最新版本的检测模型(ch_PP-OCRv4_det_infer)和识别模型(ch_PP-OCRv4_rec_infer)在处理下划线字符时存在一定局限性。

问题现象

当输入图像中包含下划线字符时，检测模型往往无法正确框选出下划线区域，即使调整了以下关键参数也未能解决问题：

use_dilation(是否使用膨胀)
det_db_box_thresh(检测框阈值)
det_db_unclip_ratio(检测框扩展比例)

同样地，识别模型也无法正确识别出下划线字符。这表明问题不仅存在于检测阶段，也存在于识别阶段。

技术分析

检测模型层面

PaddleOCR的检测模型基于DB(Differentiable Binarization)算法，该算法擅长处理常规文本区域。但下划线作为一种特殊字符，具有以下特点：

通常呈现为细长水平线
高度远小于常规字符
在自然场景中可能被误认为是图像噪声

这些特性使得标准检测模型难以将其识别为有效文本区域。

识别模型层面

识别模型的问题更为直接：PaddleOCR的默认字符集中并未包含下划线字符。这意味着即使检测模型成功定位了下划线区域，识别模型也无法将其正确分类为下划线。

解决方案建议

1. 模型微调

对于检测模型：

收集包含下划线的训练样本
调整模型对细长文本区域的敏感度
可能需要修改损失函数以更好地处理这类特殊形状

对于识别模型：

扩展字符集，加入下划线字符
使用包含下划线的数据进行重新训练

2. 后处理优化

在检测阶段后添加专门的下划线处理模块：

基于几何特征筛选可能的候选区域
对检测结果进行形态学分析以补充下划线

3. 参数调整策略

虽然常规参数调整效果有限，但可以尝试：

降低det_db_box_thresh以捕捉更多低置信度区域
增大det_db_unclip_ratio以扩展检测框范围
结合use_dilation增强对细长特征的捕捉

实际应用建议

在实际项目中，如果需要处理大量包含下划线的文档，建议：

优先考虑模型微调方案
对于简单场景，可以尝试基于规则的后处理
评估下划线的重要性，必要时可以牺牲部分精度换取稳定性

总结

PaddleOCR的默认模型在处理下划线这类特殊字符时存在固有局限，这主要源于训练数据的分布和模型设计目标。通过有针对性的模型优化和适当的后处理，可以有效提升系统对下划线的处理能力。开发者应根据实际需求选择最适合的解决方案。

PaddleOCR

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目地址：https://gitcode.com/GitHub_Trending/pa/PaddleOCR

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

420

363

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

PaddleOCR检测与识别模型对下划线字符的支持分析

背景介绍

问题现象