Umi-OCR 高效离线文字识别工具使用指南

2026-03-31 09:31:25作者：郦嵘贵Just

一、功能价值：解决三大文字识别痛点

在数字化办公中，您是否遇到过以下问题：需要将图片中的代码转换为可编辑文本？面对几十张截图需要逐一识别？跨国团队协作时需要多语言界面支持？Umi-OCR 作为一款免费开源的离线 OCR 工具，专为解决这些问题而生。它具备三大核心优势：无需联网即可本地处理敏感文档🔒、支持批量处理提升效率📈、提供多语言界面满足全球化需求🌐。

图 1：Umi-OCR 正在识别代码截图，左侧为原图区域，右侧为识别结果面板

二、环境准备：3 步完成跨平台部署

2.1 获取项目源码

git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR

2.2 选择对应平台启动方式

Windows 系统：直接双击根目录下的 Umi-OCR.exe
Linux 系统：终端执行 ./umi-ocr.sh 启动脚本

💡 提示：首次运行会自动创建用户配置目录，存放个性化设置和识别历史。

2.3 验证部署成功

启动后出现如图 2 所示的全局设置界面，说明部署完成。您可以在此调整语言、主题等基础设置。

图 2：全局设置面板支持语言切换、主题定制等基础配置

三、核心操作：两种场景的高效使用方法

3.1 截图 OCR：即时提取屏幕文字

痛点：阅读教程时遇到代码截图无法复制？
解决方案：一键截图识别功能，三步完成文字提取：

点击顶部标签页「截图 OCR」
拖动鼠标框选需要识别的区域（支持快捷键触发）
识别完成后点击右键菜单「复制文本」

图 3：截图 OCR 界面支持框选识别与结果快速复制

3.2 批量 OCR：处理多文件的最佳实践

痛点：需要转换整个文件夹的图片为文本？
解决方案：批量任务功能，四步完成批量处理：

切换到「批量 OCR」标签页
点击「选择图片」添加多个文件（支持拖放操作）
点击「开始任务」按钮启动处理
结果自动保存到源文件目录或指定路径

图 4：批量 OCR 面板显示处理进度和历史记录

四、扩展配置：个性化功能定制

4.1 多语言界面设置

场景：跨国团队协作需要切换界面语言
操作路径：设置入口 → 全局设置 → 语言选择 → 应用重启

图 5：支持简中、日文、英文等多种界面语言

4.2 输出格式自定义

场景：需要将识别结果保存为特定格式
配置步骤：

进入「批量 OCR」→「设置」
在「保存文件类型」中勾选需要的格式（TXT/纯文本/分文件）
选择保存路径（原目录或指定文件夹）

五、常见问题速查

Q1：识别 accuracy 不高怎么办？

A：在「全局设置」→「高级」中切换更高精度的识别模型，或调整图片预处理参数。

Q2：如何设置开机自动启动？

A：进入「全局设置」→「快捷方式」，开启「开机自启」选项。

Q3：支持哪些图片格式？

A：目前支持 PNG、JPG、BMP 等常见格式，批量处理时建议统一格式以获得最佳效果。

核心模块功能图解

Umi-OCR
├─ 核心引擎层 🔧
│  ├─ OCR识别核心（处理文字提取）
│  └─ 图像处理模块（优化识别前图片质量）
├─ 功能界面层 🖥️
│  ├─ 截图OCR（即时识别工具）
│  ├─ 批量OCR（多文件处理中心）
│  └─ 全局设置（个性化配置面板）
└─ 扩展支持层 🧩
   ├─ 多语言系统（界面本地化）
   └─ 插件架构（预留功能扩展接口）

通过以上功能，Umi-OCR 实现了从快速截图识别到批量文件处理的全场景覆盖，同时保持离线使用的安全性和灵活的个性化配置。无论是学生、程序员还是办公人员，都能找到适合自己的高效使用方式。

Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

项目地址：https://gitcode.com/GitHub_Trending/um/Umi-OCR

登录后查看全文