零门槛玩转Umi-OCR:全平台离线OCR工具使用指南
2026-03-31 08:58:18作者:胡易黎Nicole
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
Umi-OCR是一款免费开源的离线OCR(光学字符识别技术)软件,支持截图识别、批量处理和二维码识别等核心功能,特别适合需要快速提取图片文字的办公人士、学生和开发者。本指南将帮助你从环境准备到高级配置,轻松掌握这款工具的全部用法。
核心功能概览
Umi-OCR提供三大核心功能,满足不同场景的文字识别需求:
📌 截图OCR:实时截取屏幕区域并识别文字,支持滚动截图和文本编辑 📌 批量OCR:一次性处理多张图片,自动生成可编辑文本文件 📌 多语言支持:内置多种语言识别模型,支持界面国际化切换
核心文件功能速查表
| 文件/目录 | 功能说明 |
|---|---|
| Umi-OCR.exe | Windows平台主程序,双击直接运行 |
| umi-ocr.sh | Linux平台启动脚本,终端执行 |
| UmiOCR-data/main.py | 程序核心入口,开发者可查看源码 |
| UmiOCR-data/qt_res | 界面资源文件,包含图标和主题 |
| UmiOCR-data/plugins | 功能扩展插件目录 |
| UmiOCR-data/i18n | 多语言翻译文件存储 |
环境准备
新手快速启动
🔍 Windows系统:
- 操作目的:快速启动应用
- 执行方法:找到并双击"Umi-OCR.exe"文件
- 预期效果:程序启动并显示主界面,默认进入截图OCR模式
🔍 Linux系统:
- 操作目的:通过终端启动应用
- 执行方法:打开终端,进入项目目录,输入
./umi-ocr.sh并回车 - 预期效果:终端显示启动日志,随后打开Umi-OCR主窗口
⚠️ 注意:首次运行可能需要等待程序加载OCR模型,这是正常现象。
开发者启动选项
💡 如果你需要修改源码或调试程序,可以通过Python直接运行:
# 克隆项目仓库
git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR
# 进入项目目录
cd Umi-OCR
# 运行源码
python UmiOCR-data/main.py
操作流程
截图OCR使用步骤
🔍 步骤1:进入截图模式
- 操作目的:激活截图功能
- 执行方法:点击主界面顶部的"截图OCR"标签
- 预期效果:界面切换到截图操作模式,显示截图工具栏
🔍 步骤2:选择截图区域
- 操作目的:框选需要识别的文字区域
- 执行方法:点击工具栏中的截图按钮,用鼠标拖动选择区域
- 预期效果:选中区域被红色边框标记,松开鼠标后自动开始识别
🔍 步骤3:处理识别结果
- 操作目的:复制或编辑识别后的文字
- 执行方法:右键点击识别结果,选择"复制"或"全选"
- 预期效果:文字被复制到剪贴板,可粘贴到其他应用
批量OCR使用步骤
🔍 步骤1:切换到批量模式
- 操作目的:准备批量处理图片
- 执行方法:点击顶部"批量OCR"标签
- 预期效果:界面显示文件列表和任务控制区域
🔍 步骤2:添加图片文件
- 操作目的:导入需要识别的图片
- 执行方法:点击"选择图片"按钮,批量选择图片文件
- 预期效果:选中的图片显示在文件列表中,包含文件名和大小信息
🔍 步骤3:开始批量识别
- 操作目的:执行批量OCR任务
- 执行方法:点击"开始任务"按钮,等待进度条完成
- 预期效果:程序按顺序处理图片,完成后显示识别结果和保存路径
进阶配置
基础配置
🔍 界面语言设置
- 操作目的:切换软件界面语言
- 执行方法:进入"全局设置",在"语言/Language"下拉菜单选择语言
- 预期效果:界面文字立即切换为所选语言
🔍 主题切换
- 操作目的:更改软件外观风格
- 执行方法:在"全局设置"的"主题"选项中选择喜欢的主题
- 预期效果:界面颜色和样式立即更新
高级配置
💡 OCR引擎设置
- 操作目的:优化识别 accuracy
- 执行方法:在"全局设置"中点击"高级"按钮,调整识别模型参数
- 预期效果:根据需求平衡识别速度和准确率
💡 快捷键自定义
- 操作目的:提高操作效率
- 执行方法:在"全局设置"的"快捷方式"区域自定义常用操作的快捷键
- 预期效果:通过自定义快捷键快速执行常用功能
常见问题
📌 Q: 识别结果出现乱码怎么办? A: 可能是选择了错误的语言模型。进入设置检查"语言/模型库"选项,确保选择与图片文字匹配的语言。
📌 Q: 批量处理时程序无响应? A: 尝试减少单次处理的图片数量,或关闭其他占用系统资源的程序。大图片建议先压缩尺寸再处理。
📌 Q: 如何导出识别结果? A: 在批量OCR模式下,可在"设置"中指定输出目录和文件格式,支持TXT和纯文本格式。
💡 提示:所有操作记录可在"记录"标签页查看,方便追溯历史识别结果。遇到复杂问题可查阅项目内的帮助文档或提交反馈。
通过以上步骤,你已经掌握了Umi-OCR的基本使用方法和高级技巧。这款强大的离线OCR工具将帮助你高效处理各种图片文字提取需求,提升工作学习效率。
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0190
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0113
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
omega-aiOmega-AI:基于java打造的深度学习框架,帮助你快速搭建神经网络,实现模型推理与训练,引擎支持自动求导,多线程与GPU运算,GPU支持CUDA,CUDNN。Java04
llm-universe本项目是一个面向小白开发者的大模型应用开发教程,在线阅读地址:https://datawhalechina.github.io/llm-universe/Jupyter Notebook08
项目优选
收起
deepin linux kernel
C
32
16
暂无描述
Dockerfile
762
4.95 K
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.8 K
190
Fflutter_flutter
暂无简介
Dart
1 K
260
Ascend Extension for PyTorch
Python
717
869
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
854
1.91 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.07 K
1.09 K
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.73 K
1.02 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
676
1.32 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
455
438




