Tesseract.js OCR 核心 API 详解与技术实践

2026-02-03 05:37:36作者：范靓好Udolf

前言

Tesseract.js 是一个强大的 JavaScript OCR 库，它基于 Google 的 Tesseract OCR 引擎，能够在浏览器和 Node.js 环境中实现高质量的文本识别。本文将深入解析 Tesseract.js 的核心 API，帮助开发者更好地理解和运用这一工具。

核心概念

在深入 API 之前，我们需要了解几个关键概念：

Worker：Tesseract.js 的工作单元，负责管理 OCR 实例
Scheduler：任务调度器，用于管理多个 Worker 并行处理任务
MEMFS：内存文件系统，Tesseract.js 用于存储临时文件

Worker 创建与管理

createWorker 方法

createWorker 是 Tesseract.js 的核心方法，用于创建一个 OCR 工作单元。其基本语法如下：

const worker = await createWorker(langs, oem, options, config);

参数详解：

langs：指定识别语言，可以是字符串或数组（多语言）
- 示例：'eng' 或 ['eng', 'chi_sim']
oem：OCR 引擎模式
- 0：原始 Tesseract 引擎
- 1：LSTM 神经网络引擎（推荐）
- 3：默认模式（自动选择）
options：配置对象，重要选项包括：
- corePath：核心文件路径（注意应指向目录而非单个文件）
- langPath：语言文件下载路径
- logger：日志回调函数
- errorHandler：错误处理函数
- legacyCore/legacyLang：是否支持传统模式（用于 OSD 检测）
config：初始化参数（仅初始化时可设置的参数）

最佳实践：

对于生产环境，建议指定 corePath 和 langPath 以确保稳定性
使用 logger 监控识别进度
多语言识别时，注意语言顺序会影响识别结果

Worker 核心方法

recognize 方法

recognize 是核心识别方法，其基本用法：

const { data: { text } } = await worker.recognize(image, options, output);

参数说明：

image：支持多种格式：
- 图片 URL
- Base64 编码
- HTML Image/Canvas/Video 元素
- Buffer（Node.js）
options：识别选项
- rectangle：指定识别区域（包含 top/left/width/height）
- 其他 Tesseract 参数
output：输出格式控制
- 默认返回 text
- 可选 blocks（JSON）、hocr、tsv 等

性能优化建议：

对于低分辨率图片，先进行放大处理
明确识别区域可提高准确率和速度
合理选择输出格式以减少处理开销

setParameters 方法

用于动态设置 Tesseract 参数：

await worker.setParameters({
  tessedit_char_whitelist: '0123456789',
  preserve_interword_spaces: '1'
});

常用参数：

参数名	类型	说明
tessedit_pageseg_mode	枚举	页面分割模式（见 PSM 部分）
tessedit_char_whitelist	字符串	字符白名单（限制识别字符集）
preserve_interword_spaces	字符串	是否保留单词间空格
user_defined_dpi	字符串	自定义 DPI 解决分辨率警告

reinitialize 方法

重新初始化 Worker，用于切换语言或引擎模式：

await worker.reinitialize('chi_sim', 1);

注意事项：

切换至传统引擎（oem=0）需要预先配置 legacyCore 和 legacyLang
初始化参数只能在此时设置

detect 方法

执行方向与脚本检测（OSD）：

const { data } = await worker.detect(image);

注意： 需要预先启用传统模式支持

文件系统操作

Tesseract.js 提供了内存文件系统（MEMFS）操作方法：

writeText：写入文本文件
readText：读取文本文件
removeFile：删除文件
FS：底层文件系统接口

典型应用场景：

需要 Tesseract 读取配置文件时
处理多步骤 OCR 流程时暂存中间结果

Scheduler 任务调度

对于高并发场景，可以使用 Scheduler 管理多个 Worker：

const scheduler = createScheduler();
// 添加多个 Worker
scheduler.addWorker(worker1); 
scheduler.addWorker(worker2);

// 提交任务
const result = await scheduler.addJob('recognize', image);

优势：