OCRmyPDF中如何配置Watcher.py的多语言OCR支持

2025-05-06 10:23:35作者：苗圣禹Peter

OCRmyPDF是一个强大的开源工具，能够将扫描的PDF文档转换为可搜索的PDF文件。其中Watcher.py是该工具提供的一个实用脚本，用于监控文件夹并自动处理新出现的PDF文件。本文将详细介绍如何配置Watcher.py以支持多语言OCR识别。

Watcher.py的基本工作原理

Watcher.py是一个基于Python的守护进程脚本，它会持续监控指定的文件夹。当检测到新PDF文件时，会自动调用OCRmyPDF进行处理。默认情况下，它使用英语作为OCR识别语言，但实际使用中我们经常需要处理其他语言的文档。

要使Watcher.py支持其他语言的OCR识别，需要完成以下两个步骤：

安装目标语言的Tesseract语言包
例如对于葡萄牙语，需要安装tesseract-ocr-por包。不同操作系统安装方式不同：
- Ubuntu/Debian: sudo apt-get install tesseract-ocr-por
- CentOS/RHEL: sudo yum install tesseract-ocr-por
- macOS (使用Homebrew): brew install tesseract-lang
配置Watcher.py的语言参数
启动Watcher.py时，通过--ocr-json-settings参数传递语言配置：
```
watcher.py --ocr-json-settings '{"language": "por"}'
```
这里的"por"是葡萄牙语的ISO 639-2语言代码。

除了基本语言设置外，--ocr-json-settings参数支持OCRmyPDF的所有配置选项。例如：

同时指定多个语言（提高识别准确率）：

watcher.py --ocr-json-settings '{"language": "por+eng"}'

设置OCR引擎和页面分割模式：

watcher.py --ocr-json-settings '{"language": "por", "oem": 1, "psm": 6}'

通过合理配置Watcher.py的多语言支持，用户可以轻松实现自动化、多语言的PDF文档OCR处理流程，大大提高工作效率。

登录后查看全文