OCRmyPDF参数使用指南：解决常见参数错误问题

2025-05-06 17:35:38作者：咎岭娴Homer

OCRmyPDF是一款强大的PDF文档OCR处理工具，但在使用过程中经常会遇到参数错误的问题。本文将以一个典型错误案例为切入点，深入解析OCRmyPDF的正确参数使用方法。

典型错误案例分析

用户在Windows命令行中尝试执行以下命令时遇到了问题：

ocrmypdf -2 spa input.pdf output.pdf

系统返回的错误信息表明"-2"是一个不被识别的参数。这个错误源于用户对OCRmyPDF参数格式的误解。

参数格式详解

OCRmyPDF的参数格式有严格规范：

单字母参数前使用单个短横线"-"
完整单词参数前使用双短横线"--"
参数与值之间通常用空格分隔

正确参数组合

要实现用户期望的功能（西班牙语OCR+二级优化），正确的命令应该是：

ocrmypdf -O2 -l spa input.pdf output.pdf

其中：

-O2：表示使用第二级优化（数字前必须加-O）
-l spa：指定西班牙语OCR（l是language的缩写）

常用参数说明

语言选择参数：
- -l eng：英语
- -l chi_sim：简体中文
- -l spa：西班牙语
优化级别参数：
- -O0：无优化
- -O1：基本优化
- -O2：中等优化（推荐）
- -O3：最大优化
输出控制参数：
- --deskew：自动校正倾斜页面
- --clean：尝试清理扫描伪影

使用建议

对于初学者，建议先使用基本命令测试：
```
ocrmypdf input.pdf output.pdf
```
查看完整参数列表：
```
ocrmypdf --help
```
处理非英语文档时，务必正确指定语言代码，否则OCR质量会显著下降。

通过理解这些参数规范，用户可以更有效地使用OCRmyPDF处理各种PDF文档，避免常见的参数错误问题。

OCRmyPDF

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched

项目地址：https://gitcode.com/GitHub_Trending/oc/OCRmyPDF

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

462

5.49 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.11 K

1.15 K