【亲测免费】 Tesseract.js 语言训练数据安装和配置指南

2026-01-21 05:00:52作者：劳婵绚Shirley

1. 项目基础介绍和主要的编程语言

项目基础介绍

Tesseract.js 是一个基于 JavaScript 的 OCR（光学字符识别）库，它允许开发者在浏览器和 Node.js 环境中使用 Tesseract OCR 引擎。naptha/tessdata 项目是 Tesseract.js 使用的语言训练数据集合，包含了多种语言的 .traineddata 文件，这些文件用于训练 Tesseract OCR 引擎以识别不同的语言。

主要的编程语言

该项目主要使用 JavaScript 语言，适用于前端和后端开发。

2. 项目使用的关键技术和框架

关键技术

Tesseract OCR 引擎：一个开源的 OCR 引擎，支持多种语言的文本识别。
LSTM（长短期记忆网络）：用于提高 OCR 识别精度的深度学习模型。
NPM（Node Package Manager）：用于管理和安装 JavaScript 包。

框架

Tesseract.js：一个 JavaScript 库，封装了 Tesseract OCR 引擎，使其可以在浏览器和 Node.js 环境中使用。

3. 项目安装和配置的准备工作和详细的安装步骤

准备工作

安装 Node.js 和 NPM：确保你的系统上已经安装了 Node.js 和 NPM。你可以通过访问 Node.js 官网下载并安装最新版本的 Node.js，NPM 会随 Node.js 一起安装。
创建项目目录：在你的开发环境中创建一个新的项目目录，并在该目录下初始化一个新的 Node.js 项目。
```
mkdir my-tesseract-project
cd my-tesseract-project
npm init -y
```

详细的安装步骤

安装 Tesseract.js

首先，你需要安装 Tesseract.js 库。

npm install tesseract.js

安装语言训练数据

Tesseract.js 需要语言训练数据来识别不同的语言。你可以通过 NPM 安装特定语言的训练数据包。例如，安装英文训练数据：

npm install @tesseract.js-data/eng

配置 Tesseract.js

在你的项目中，创建一个新的 JavaScript 文件（例如 index.js），并配置 Tesseract.js 以使用安装的语言训练数据。

const { createWorker } = require('tesseract.js');

async function main() {
  const worker = createWorker();

  await worker.load();
  await worker.loadLanguage('eng');
  await worker.initialize('eng');

  const { data: { text } } = await worker.recognize('path/to/your/image.png');
  console.log(text);

  await worker.terminate();
}

main();

运行项目

在终端中运行你的项目：

node index.js

其他语言的安装

如果你需要识别其他语言，只需安装相应的语言训练数据包。例如，安装中文训练数据：

npm install @tesseract.js-data/chi_tra

然后在代码中初始化该语言：

await worker.loadLanguage('chi_tra');
await worker.initialize('chi_tra');

使用 CDN 获取训练数据

如果你不想通过 NPM 安装训练数据，也可以使用 CDN 获取。Tesseract.js 默认使用 JSDelivr CDN。例如，获取英文训练数据：

const { createWorker } = require('tesseract.js');

async function main() {
  const worker = createWorker({
    langPath: 'https://cdn.jsdelivr.net/npm/@tesseract.js-data/eng@1.0.0/4.0.0_best_int'
  });

  await worker.load();
  await worker.loadLanguage('eng');
  await worker.initialize('eng');

  const { data: { text } } = await worker.recognize('path/to/your/image.png');
  console.log(text);

  await worker.terminate();
}

main();