OCR_Kor 项目安装与配置指南

2025-04-21 22:17:42作者：劳婵绚Shirley

1. 项目基础介绍

OCR_Kor 是一个基于深度学习的韩文OCR（Optical Character Recognition，光学字符识别）项目。该项目旨在通过训练深度学习模型来识别和转换图像中的韩文字符。项目的主要编程语言是 Python。

2. 关键技术和框架

深度学习框架：使用 PyTorch 作为深度学习框架。
图像处理：采用多种图像处理技术，如文字区域提取、图像变形等，以增强模型的鲁棒性。
模型架构：结合了多种网络架构，如 TPS（Thresholding Parameterization Spatial Transformer Network）、VGG、ResNet 作为特征提取网络，BiLSTM（双向长短时记忆网络）和 Attn（注意力机制）作为序列模型。

3. 安装和配置准备工作

在开始安装之前，请确保您的计算机满足了以下先决条件：

Python 3.6 或更高版本
PyTorch
CUDA（如果您打算使用GPU加速）

详细安装步骤

步骤 1：克隆项目

首先，您需要在本地克隆 GitHub 上的 OCR_Kor 仓库：

git clone https://github.com/parksunwoo/ocr_kor.git
cd ocr_kor

步骤 2：安装依赖

安装项目所需的 Python 包。建议使用虚拟环境来避免与系统中的其他 Python 包冲突：

# 创建虚拟环境（可选）
python3 -m venv venv
source venv/bin/activate  # 在 Windows 下使用 `venv\Scripts\activate`

# 安装依赖
pip install -r requirements.txt

步骤 3：准备数据

项目需要韩文字符图像数据集。如果数据集不存在，您需要自己生成或下载。项目仓库中包含了生成训练数据的示例脚本：

# 生成数据集（根据实际情况修改路径和参数）
python3 data/create_lmdb_dataset.py --inputPath ./data/generator/TextRecognitionDataGenerator/ --gtFile ./data/gt_basic.txt --outputPath ./data/data_lmdb_release/training

步骤 4：训练模型

在准备好数据之后，您可以开始训练模型：

# 训练模型（根据您的硬件配置修改 CUDA_VISIBLE_DEVICES）
CUDA_VISIBLE_DEVICES=0 python3 deep-text-recognition-benchmark/train.py --train_data ./data/data_lmdb_release/training --valid_data ./data/data_lmdb_release/validation --select_data basic-skew --batch_ratio 0.5-0.5 --Transformation TPS --FeatureExtraction VGG --SequenceModeling None --Prediction Attn --data_filtering_off --batch_max_length 50 --workers 4

步骤 5：测试模型

训练完成后，您可以使用以下命令来测试模型的性能：

# 测试模型
CUDA_VISIBLE_DEVICES=0 python3 deep-text-recognition-benchmark/test.py --eval_data ./data/data_lmdb_release/evaluation --benchmark_all_eval --Transformation TPS --FeatureExtraction VGG --SequenceModeling None --Prediction Attn --saved_model ./saved_models/TPS-VGG-None-Attn-Seed1111/best_accuracy.pth --data_filtering_off --workers 4

步骤 6：使用模型进行预测

最后，您可以使用训练好的模型对新的图像进行预测：

# 使用模型进行预测
CUDA_VISIBLE_DEVICES=0 python3 deep-text-recognition-benchmark/demo.py --Transformation TPS --FeatureExtraction VGG --SequenceModeling BiLSTM --Prediction Attn --image_folder ./data/demo_image/ --saved_model ./deep-text-recognition-benchmark/saved_models/TPS-VGG-BiLSTM-Attn-Seed9998/best_accuracy.pth

请根据实际情况调整上述命令中的参数。上述步骤为您提供了一个基本的安装和配置指南，具体细节可能需要根据项目文档和您计算机的配置进行调整。

登录后查看全文