零门槛玩转Umi-OCR:全平台离线OCR工具使用指南
2026-03-31 08:58:18作者:胡易黎Nicole
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
Umi-OCR是一款免费开源的离线OCR(光学字符识别技术)软件,支持截图识别、批量处理和二维码识别等核心功能,特别适合需要快速提取图片文字的办公人士、学生和开发者。本指南将帮助你从环境准备到高级配置,轻松掌握这款工具的全部用法。
核心功能概览
Umi-OCR提供三大核心功能,满足不同场景的文字识别需求:
📌 截图OCR:实时截取屏幕区域并识别文字,支持滚动截图和文本编辑 📌 批量OCR:一次性处理多张图片,自动生成可编辑文本文件 📌 多语言支持:内置多种语言识别模型,支持界面国际化切换
核心文件功能速查表
| 文件/目录 | 功能说明 |
|---|---|
| Umi-OCR.exe | Windows平台主程序,双击直接运行 |
| umi-ocr.sh | Linux平台启动脚本,终端执行 |
| UmiOCR-data/main.py | 程序核心入口,开发者可查看源码 |
| UmiOCR-data/qt_res | 界面资源文件,包含图标和主题 |
| UmiOCR-data/plugins | 功能扩展插件目录 |
| UmiOCR-data/i18n | 多语言翻译文件存储 |
环境准备
新手快速启动
🔍 Windows系统:
- 操作目的:快速启动应用
- 执行方法:找到并双击"Umi-OCR.exe"文件
- 预期效果:程序启动并显示主界面,默认进入截图OCR模式
🔍 Linux系统:
- 操作目的:通过终端启动应用
- 执行方法:打开终端,进入项目目录,输入
./umi-ocr.sh并回车 - 预期效果:终端显示启动日志,随后打开Umi-OCR主窗口
⚠️ 注意:首次运行可能需要等待程序加载OCR模型,这是正常现象。
开发者启动选项
💡 如果你需要修改源码或调试程序,可以通过Python直接运行:
# 克隆项目仓库
git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR
# 进入项目目录
cd Umi-OCR
# 运行源码
python UmiOCR-data/main.py
操作流程
截图OCR使用步骤
🔍 步骤1:进入截图模式
- 操作目的:激活截图功能
- 执行方法:点击主界面顶部的"截图OCR"标签
- 预期效果:界面切换到截图操作模式,显示截图工具栏
🔍 步骤2:选择截图区域
- 操作目的:框选需要识别的文字区域
- 执行方法:点击工具栏中的截图按钮,用鼠标拖动选择区域
- 预期效果:选中区域被红色边框标记,松开鼠标后自动开始识别
🔍 步骤3:处理识别结果
- 操作目的:复制或编辑识别后的文字
- 执行方法:右键点击识别结果,选择"复制"或"全选"
- 预期效果:文字被复制到剪贴板,可粘贴到其他应用
批量OCR使用步骤
🔍 步骤1:切换到批量模式
- 操作目的:准备批量处理图片
- 执行方法:点击顶部"批量OCR"标签
- 预期效果:界面显示文件列表和任务控制区域
🔍 步骤2:添加图片文件
- 操作目的:导入需要识别的图片
- 执行方法:点击"选择图片"按钮,批量选择图片文件
- 预期效果:选中的图片显示在文件列表中,包含文件名和大小信息
🔍 步骤3:开始批量识别
- 操作目的:执行批量OCR任务
- 执行方法:点击"开始任务"按钮,等待进度条完成
- 预期效果:程序按顺序处理图片,完成后显示识别结果和保存路径
进阶配置
基础配置
🔍 界面语言设置
- 操作目的:切换软件界面语言
- 执行方法:进入"全局设置",在"语言/Language"下拉菜单选择语言
- 预期效果:界面文字立即切换为所选语言
🔍 主题切换
- 操作目的:更改软件外观风格
- 执行方法:在"全局设置"的"主题"选项中选择喜欢的主题
- 预期效果:界面颜色和样式立即更新
高级配置
💡 OCR引擎设置
- 操作目的:优化识别 accuracy
- 执行方法:在"全局设置"中点击"高级"按钮,调整识别模型参数
- 预期效果:根据需求平衡识别速度和准确率
💡 快捷键自定义
- 操作目的:提高操作效率
- 执行方法:在"全局设置"的"快捷方式"区域自定义常用操作的快捷键
- 预期效果:通过自定义快捷键快速执行常用功能
常见问题
📌 Q: 识别结果出现乱码怎么办? A: 可能是选择了错误的语言模型。进入设置检查"语言/模型库"选项,确保选择与图片文字匹配的语言。
📌 Q: 批量处理时程序无响应? A: 尝试减少单次处理的图片数量,或关闭其他占用系统资源的程序。大图片建议先压缩尺寸再处理。
📌 Q: 如何导出识别结果? A: 在批量OCR模式下,可在"设置"中指定输出目录和文件格式,支持TXT和纯文本格式。
💡 提示:所有操作记录可在"记录"标签页查看,方便追溯历史识别结果。遇到复杂问题可查阅项目内的帮助文档或提交反馈。
通过以上步骤,你已经掌握了Umi-OCR的基本使用方法和高级技巧。这款强大的离线OCR工具将帮助你高效处理各种图片文字提取需求,提升工作学习效率。
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0137- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
MiniCPM-V-4.6这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。Jinja00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
MusicFreeDesktop插件化、定制化、无广告的免费音乐播放器TypeScript00
项目优选
收起
暂无描述
Dockerfile
725
4.66 K
Ascend Extension for PyTorch
Python
597
749
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
425
377
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
992
985
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
981
137
昇腾LLM分布式训练框架
Python
160
190
暂无简介
Dart
969
246
deepin linux kernel
C
29
16
Oohos_react_native
React Native鸿蒙化仓库
C++
345
393
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.65 K
970




