零门槛玩转Umi-OCR：全平台离线OCR工具使用指南

2026-03-31 08:58:18作者：胡易黎Nicole

Umi-OCR是一款免费开源的离线OCR（光学字符识别技术）软件，支持截图识别、批量处理和二维码识别等核心功能，特别适合需要快速提取图片文字的办公人士、学生和开发者。本指南将帮助你从环境准备到高级配置，轻松掌握这款工具的全部用法。

核心功能概览

Umi-OCR提供三大核心功能，满足不同场景的文字识别需求：

📌 截图OCR：实时截取屏幕区域并识别文字，支持滚动截图和文本编辑 📌 批量OCR：一次性处理多张图片，自动生成可编辑文本文件 📌 多语言支持：内置多种语言识别模型，支持界面国际化切换

核心文件功能速查表

文件/目录	功能说明
Umi-OCR.exe	Windows平台主程序，双击直接运行
umi-ocr.sh	Linux平台启动脚本，终端执行
UmiOCR-data/main.py	程序核心入口，开发者可查看源码
UmiOCR-data/qt_res	界面资源文件，包含图标和主题
UmiOCR-data/plugins	功能扩展插件目录
UmiOCR-data/i18n	多语言翻译文件存储

环境准备

新手快速启动

🔍 Windows系统：

操作目的：快速启动应用
执行方法：找到并双击"Umi-OCR.exe"文件
预期效果：程序启动并显示主界面，默认进入截图OCR模式

🔍 Linux系统：

操作目的：通过终端启动应用
执行方法：打开终端，进入项目目录，输入./umi-ocr.sh并回车
预期效果：终端显示启动日志，随后打开Umi-OCR主窗口

⚠️ 注意：首次运行可能需要等待程序加载OCR模型，这是正常现象。

开发者启动选项

💡 如果你需要修改源码或调试程序，可以通过Python直接运行：

# 克隆项目仓库
git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR

# 进入项目目录
cd Umi-OCR

# 运行源码
python UmiOCR-data/main.py

操作流程

截图OCR使用步骤

🔍 步骤1：进入截图模式

操作目的：激活截图功能
执行方法：点击主界面顶部的"截图OCR"标签
预期效果：界面切换到截图操作模式，显示截图工具栏

🔍 步骤2：选择截图区域

操作目的：框选需要识别的文字区域
执行方法：点击工具栏中的截图按钮，用鼠标拖动选择区域
预期效果：选中区域被红色边框标记，松开鼠标后自动开始识别

🔍 步骤3：处理识别结果

操作目的：复制或编辑识别后的文字
执行方法：右键点击识别结果，选择"复制"或"全选"
预期效果：文字被复制到剪贴板，可粘贴到其他应用

批量OCR使用步骤

🔍 步骤1：切换到批量模式

操作目的：准备批量处理图片
执行方法：点击顶部"批量OCR"标签
预期效果：界面显示文件列表和任务控制区域

🔍 步骤2：添加图片文件

操作目的：导入需要识别的图片
执行方法：点击"选择图片"按钮，批量选择图片文件
预期效果：选中的图片显示在文件列表中，包含文件名和大小信息

🔍 步骤3：开始批量识别

操作目的：执行批量OCR任务
执行方法：点击"开始任务"按钮，等待进度条完成
预期效果：程序按顺序处理图片，完成后显示识别结果和保存路径

进阶配置

基础配置

🔍 界面语言设置

操作目的：切换软件界面语言
执行方法：进入"全局设置"，在"语言/Language"下拉菜单选择语言
预期效果：界面文字立即切换为所选语言

🔍 主题切换

操作目的：更改软件外观风格
执行方法：在"全局设置"的"主题"选项中选择喜欢的主题
预期效果：界面颜色和样式立即更新

高级配置

💡 OCR引擎设置

操作目的：优化识别 accuracy
执行方法：在"全局设置"中点击"高级"按钮，调整识别模型参数
预期效果：根据需求平衡识别速度和准确率

💡 快捷键自定义

操作目的：提高操作效率
执行方法：在"全局设置"的"快捷方式"区域自定义常用操作的快捷键
预期效果：通过自定义快捷键快速执行常用功能

常见问题

📌 Q: 识别结果出现乱码怎么办？ A: 可能是选择了错误的语言模型。进入设置检查"语言/模型库"选项，确保选择与图片文字匹配的语言。

📌 Q: 批量处理时程序无响应？ A: 尝试减少单次处理的图片数量，或关闭其他占用系统资源的程序。大图片建议先压缩尺寸再处理。

📌 Q: 如何导出识别结果？ A: 在批量OCR模式下，可在"设置"中指定输出目录和文件格式，支持TXT和纯文本格式。

💡 提示：所有操作记录可在"记录"标签页查看，方便追溯历史识别结果。遇到复杂问题可查阅项目内的帮助文档或提交反馈。

通过以上步骤，你已经掌握了Umi-OCR的基本使用方法和高级技巧。这款强大的离线OCR工具将帮助你高效处理各种图片文字提取需求，提升工作学习效率。

Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

项目地址：https://gitcode.com/GitHub_Trending/um/Umi-OCR

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

438