3分钟搞定1000页PDF！Umi-OCR批量文档处理中的页面范围控制技巧

2026-02-04 04:06:24作者：曹令琨Iris

你还在为处理几百页PDF中的重复页眉页脚烦恼？还在手动删除扫描件里的广告页？Umi-OCR的页面范围控制功能让你一键精准提取有效内容，效率提升10倍！本文将详解3种核心控制方案，附带可视化操作指南和实战案例，帮你彻底告别无效识别内容。

为什么需要页面范围控制？

在日常办公中，我们经常遇到这些问题：

500页PDF仅需识别中间200页核心内容
每10页重复出现的封面/广告页需要跳过
不同章节需要分别输出为独立文件

传统OCR工具要么不支持分页控制，要么操作复杂。Umi-OCR通过范围选择、列表指定、区域排除三重机制，完美解决这些痛点。软件界面支持直观的可视化操作，无需编写任何代码。

基础控制：页数范围设定

图形界面操作

Umi-OCR的文档识别页面提供了直观的页数范围设置区域。在"文档识别"标签页中，找到"处理范围"选项组：

起始页：默认从第1页开始，可输入具体页码
结束页：默认"-1"表示最后一页，支持负数（如"-3"表示倒数第3页）
预览窗口：实时显示当前设置将处理的总页数

场景示例：处理中间章节

要处理500页PDF中的第100-300页，只需：

起始页输入"100"
结束页输入"300"
系统自动计算出201页待处理内容

这种方式适合连续页码的提取，操作简单直观，适合大多数基础场景。

高级控制：精准页面列表

当需要处理非连续页码时，页面列表功能更加高效。通过HTTP接口或命令行模式，可以传入自定义页码数组：

{
  "pageList": [1, 3, 5, 10-20, 25]
}

格式说明

格式	含义	示例	等效页码
单个数字	单页	"5"	第5页
数字-数字	连续范围	"10-20"	10,11,...,20
逗号分隔	混合模式	"1,3,5-8"	1,3,5,6,7,8

调用示例

通过命令行调用（完整手册见docs/README_CLI.md）：

Umi-OCR.exe --doc "input.pdf" --pageList "[1,3,5-20,25]" --output "result.txt"

页面列表功能优先级高于范围设置，适合学术论文、章节提取等复杂场景。

终极控制：忽略区域功能

某些场景下，我们需要保留页面但排除特定区域（如页眉页脚、水印）。Umi-OCR的忽略区域功能可精确框选需要排除的区域：

忽略区域设置

操作步骤

在批量OCR页面点击"忽略区域"按钮
在预览图上右键绘制矩形区域
设置生效页码范围（默认全部页面）
区域内的文本块将被自动过滤

坐标设置进阶

对于高级用户，可通过HTTP接口精确设置坐标（单位：像素）：

{
  "tbpu.ignoreArea": [
    [[0,0],[100,50]],  // 左上角区域
    [[500,700],[600,800]]  // 右下角区域
  ],
  "tbpu.ignoreRangeStart": 1,  // 从第1页开始生效
  "tbpu.ignoreRangeEnd": 10   // 到第10页结束
}

这种方式适合处理固定格式的文档，如带公司LOGO的合同扫描件。

三种控制方案对比与选择

控制方式	适用场景	操作难度	精准度
页数范围	连续章节提取	⭐️⭐️⭐️⭐️⭐️	中
页面列表	非连续页码选择	⭐️⭐️⭐️⭐️	高
忽略区域	保留页面排除局部	⭐️⭐️⭐️	极高