Umi-OCR 全功能使用指南：从入门到精通

2026-03-31 09:22:31作者：宗隆裙

还在为复杂的OCR工具配置发愁？是否需要一款既能截图识别又能批量处理的离线OCR解决方案？Umi-OCR作为一款免费开源的OCR软件，提供了Windows环境下的完整OCR解决方案，支持截图识别、批量处理和二维码解析等核心功能。本指南将帮助你快速掌握软件使用方法，深入理解功能架构，并实现个性化配置。

一、快速上手指南

1.1 项目结构解析

Umi-OCR的文件组织遵循功能模块化设计，核心目录结构如下：

文件/目录路径	文件作用	重要程度
Umi-OCR.exe	Windows平台主执行文件	★★★★★
umi-ocr.sh	Linux平台启动脚本	★★★☆☆
UmiOCR-data/main.py	程序主入口Python源码	★★★★☆
UmiOCR-data/version.py	版本控制文件	★★☆☆☆
UmiOCR-data/qt_res/	Qt界面资源文件	★★★☆☆
UmiOCR-data/py_src/	核心业务逻辑代码	★★★★☆
UmiOCR-data/plugins/	功能扩展插件目录	★★★☆☆
UmiOCR-data/i18n/	多语言翻译文件	★★☆☆☆

[!TIP] 建议将Umi-OCR安装在非系统盘（如D:\Program Files\Umi-OCR），避免权限问题影响功能使用。

1.2 跨平台启动教程

Windows系统启动

🔍 操作步骤：

解压下载的压缩包至目标目录
双击运行 Umi-OCR.exe 可执行文件
首次启动会自动初始化配置文件

💡 验证方法：程序启动后显示主界面，顶部标签栏包含"截图OCR"、"批量OCR"和"全局设置"选项卡

Linux系统启动

🔍 操作步骤：

解压压缩包：tar -zxvf Umi-OCR_Linux.tar.gz
赋予执行权限：chmod +x umi-ocr.sh
启动程序：./umi-ocr.sh

💡 验证方法：终端显示"Umi-OCR started successfully"，同时弹出图形界面

1.3 常见启动故障排查

故障现象	可能原因	解决方案
双击无反应	缺少VC运行库	安装 Microsoft Visual C++ Redistributable
启动后闪退	配置文件损坏	删除 `UmiOCR-data/config` 目录后重试
Linux下权限错误	脚本无执行权限	执行 `chmod +x umi-ocr.sh`
界面乱码	字体配置问题	在"全局设置"中切换系统支持的字体

二、核心功能模块解析

2.1 截图OCR功能

截图OCR是Umi-OCR最常用的功能，支持快速识别屏幕区域的文字内容。

🔍 基本操作流程：

点击主界面"截图OCR"标签页
点击工具栏截图按钮或使用快捷键（默认F4）
拖动鼠标选择需要识别的区域
松开鼠标后自动开始识别，结果显示在右侧面板

💡 高级技巧：

按住Ctrl键可微调选区
右键菜单可选择"复制文本"或"复制图片"
"记录"标签页可查看历史识别结果

2.2 批量OCR处理

当需要处理大量图片文件时，批量OCR功能可以显著提高效率。

🔍 操作步骤：

切换到"批量OCR"标签页
点击"选择图片"按钮添加文件，或直接拖拽图片到文件列表
配置输出选项（保存路径、文件格式等）
点击"开始任务"按钮启动批量处理

💡 效率提升技巧：

支持同时处理多种图片格式（PNG、JPG、BMP等）
可通过"设置"调整识别引擎参数
大型任务建议分批处理，避免内存占用过高

2.3 多语言支持系统

Umi-OCR提供多语言界面支持，满足不同地区用户需求。

🔍 语言切换方法：

打开"全局设置"标签页
在"界面和外观" section找到"语言/Language"下拉菜单
选择所需语言（如简体中文、English、日本語等）
重启程序使设置生效

[!TIP] 若需要添加新的语言支持，可以参与项目的翻译贡献，相关指南参见项目文档。

三、个性化配置攻略

3.1 配置文件位置速查

Umi-OCR的配置文件分布在以下位置：

配置类型	文件路径	功能说明
主配置	UmiOCR-data/config/settings.json	存储全局设置参数
界面布局	UmiOCR-data/config/window_state.json	窗口大小和位置信息
快捷键配置	UmiOCR-data/config/shortcuts.json	自定义快捷键设置
语言文件	UmiOCR-data/i18n/	各语言翻译文件

💡 配置备份建议：定期备份config目录，以便在重装软件时快速恢复个人设置。

3.2 配置项优先级说明

Umi-OCR的配置系统遵循以下优先级规则（从高到低）：

命令行参数：启动时通过命令行指定的参数
用户配置：config目录下的自定义设置
默认配置：程序内置的默认参数
系统环境变量：如UmiOCR_HOME等环境变量

🔍 配置修改方法：

常规设置：通过"全局设置"界面进行调整
高级配置：直接编辑对应JSON文件（需谨慎操作）
临时配置：通过命令行参数覆盖默认设置，如：
```
Umi-OCR.exe --lang=en --theme=dark
```

3.3 界面个性化定制

Umi-OCR支持多种界面定制选项，打造个人专属工作环境：

🔍 主题切换：

进入"全局设置"
在"界面和外观"中找到"主题"下拉菜单
选择预设主题（如Solarized Light、Dark等）
点击"修改字体"可调整界面字体和大小

💡 高级界面定制：

调整界面大小比例：在"全局设置"中修改"界面大小比例"
自定义快捷键：在"全局设置"的"快捷键" section进行配置
窗口置顶：勾选"窗口置顶"选项保持界面始终可见

四、技术细节与进阶指南

4.1 跨平台兼容性说明

特性	Windows	Linux	macOS
基础OCR功能	✅ 完全支持	✅ 完全支持	⚠️ 实验性支持
截图功能	✅ 支持快捷键	✅ 支持快捷键	⚠️ 部分支持
批量处理	✅ 完全支持	✅ 完全支持	✅ 完全支持
插件系统	✅ 完全支持	✅ 完全支持	⚠️ 部分支持
多语言界面	✅ 完全支持	✅ 完全支持	✅ 完全支持

[!TIP] macOS用户建议使用虚拟机或Docker方式运行Umi-OCR以获得最佳体验。

4.2 命令行与API使用

对于高级用户，Umi-OCR提供命令行接口和HTTP API支持：

🔍 命令行示例：

# 批量识别图片
Umi-OCR.exe --batch --input "D:\images" --output "D:\ocr_results"

# 识别单个图片并输出为文本
Umi-OCR.exe --image "test.png" --text --output "result.txt"

API文档可参考项目内的docs/http/api_doc.md文件，提供了完整的接口说明和调用示例。