【亲测免费】 Tesseract OCR 语言数据文件安装和配置指南

2026-01-20 01:03:27作者：廉彬冶Miranda

Trained models with fast variant of the "best" LSTM models + legacy models

项目地址：https://gitcode.com/gh_mirrors/te/tessdata

1. 项目基础介绍和主要编程语言

项目介绍

Tesseract OCR 是一个开源的光学字符识别（OCR）引擎，支持多种语言的文本识别。tessdata 是 Tesseract OCR 的语言数据文件仓库，包含了各种语言的训练模型，这些模型用于识别不同语言的文本。

主要编程语言

Tesseract OCR 主要使用 C++ 编写，但 tessdata 仓库本身不包含代码，而是包含用于识别文本的训练数据文件。

2. 项目使用的关键技术和框架

关键技术

LSTM（长短期记忆网络）：Tesseract 4.0 及更高版本使用 LSTM 模型进行文本识别，这些模型在 tessdata 仓库中提供。
Legacy 模型：Tesseract 3.0 及更早版本使用传统的 OCR 引擎，这些模型在 tessdata 仓库中也有提供。

框架

Tesseract OCR：Tesseract OCR 是该项目的主要框架，负责加载和使用 tessdata 中的训练模型进行文本识别。

3. 项目安装和配置的准备工作和详细安装步骤

准备工作

安装 Tesseract OCR：在安装 tessdata 之前，你需要先安装 Tesseract OCR 引擎。你可以通过以下命令在 Ubuntu 或 Debian 系统上安装 Tesseract：
```
sudo apt-get update
sudo apt-get install tesseract-ocr
```
安装 Git：你需要 Git 来克隆 tessdata 仓库。如果你还没有安装 Git，可以通过以下命令安装：
```
sudo apt-get install git
```

详细安装步骤

克隆 tessdata 仓库：打开终端并运行以下命令来克隆 tessdata 仓库：
```
git clone https://github.com/tesseract-ocr/tessdata.git
```
移动数据文件到 Tesseract 数据目录：克隆完成后，将 tessdata 目录中的所有 .traineddata 文件移动到 Tesseract 的数据目录。通常，这个目录位于 /usr/share/tesseract-ocr/4.00/tessdata/ 或 /usr/local/share/tessdata/。你可以使用以下命令：
```
sudo mv tessdata/*.traineddata /usr/share/tesseract-ocr/4.00/tessdata/
```
验证安装：你可以通过运行以下命令来验证安装是否成功：
```
tesseract --list-langs
```
如果安装成功，你应该会看到所有已安装的语言列表。

配置

选择语言模型：在使用 Tesseract 进行文本识别时，你可以通过指定 --lang 参数来选择特定的语言模型。例如，识别英文文本时，可以使用：
```
tesseract image.png output -l eng
```
使用 LSTM 模型：如果你使用的是 Tesseract 4.0 或更高版本，默认会使用 LSTM 模型。如果你需要使用传统的 Legacy 模型，可以通过 --oem 0 参数来指定。

通过以上步骤，你已经成功安装并配置了 Tesseract OCR 的语言数据文件。现在你可以开始使用 Tesseract 进行多语言文本识别了。

Trained models with fast variant of the "best" LSTM models + legacy models

项目地址：https://gitcode.com/gh_mirrors/te/tessdata

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架