零门槛玩转Umi-OCR:全平台离线OCR工具使用指南
2026-03-31 08:58:18作者:胡易黎Nicole
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
Umi-OCR是一款免费开源的离线OCR(光学字符识别技术)软件,支持截图识别、批量处理和二维码识别等核心功能,特别适合需要快速提取图片文字的办公人士、学生和开发者。本指南将帮助你从环境准备到高级配置,轻松掌握这款工具的全部用法。
核心功能概览
Umi-OCR提供三大核心功能,满足不同场景的文字识别需求:
📌 截图OCR:实时截取屏幕区域并识别文字,支持滚动截图和文本编辑 📌 批量OCR:一次性处理多张图片,自动生成可编辑文本文件 📌 多语言支持:内置多种语言识别模型,支持界面国际化切换
核心文件功能速查表
| 文件/目录 | 功能说明 |
|---|---|
| Umi-OCR.exe | Windows平台主程序,双击直接运行 |
| umi-ocr.sh | Linux平台启动脚本,终端执行 |
| UmiOCR-data/main.py | 程序核心入口,开发者可查看源码 |
| UmiOCR-data/qt_res | 界面资源文件,包含图标和主题 |
| UmiOCR-data/plugins | 功能扩展插件目录 |
| UmiOCR-data/i18n | 多语言翻译文件存储 |
环境准备
新手快速启动
🔍 Windows系统:
- 操作目的:快速启动应用
- 执行方法:找到并双击"Umi-OCR.exe"文件
- 预期效果:程序启动并显示主界面,默认进入截图OCR模式
🔍 Linux系统:
- 操作目的:通过终端启动应用
- 执行方法:打开终端,进入项目目录,输入
./umi-ocr.sh并回车 - 预期效果:终端显示启动日志,随后打开Umi-OCR主窗口
⚠️ 注意:首次运行可能需要等待程序加载OCR模型,这是正常现象。
开发者启动选项
💡 如果你需要修改源码或调试程序,可以通过Python直接运行:
# 克隆项目仓库
git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR
# 进入项目目录
cd Umi-OCR
# 运行源码
python UmiOCR-data/main.py
操作流程
截图OCR使用步骤
🔍 步骤1:进入截图模式
- 操作目的:激活截图功能
- 执行方法:点击主界面顶部的"截图OCR"标签
- 预期效果:界面切换到截图操作模式,显示截图工具栏
🔍 步骤2:选择截图区域
- 操作目的:框选需要识别的文字区域
- 执行方法:点击工具栏中的截图按钮,用鼠标拖动选择区域
- 预期效果:选中区域被红色边框标记,松开鼠标后自动开始识别
🔍 步骤3:处理识别结果
- 操作目的:复制或编辑识别后的文字
- 执行方法:右键点击识别结果,选择"复制"或"全选"
- 预期效果:文字被复制到剪贴板,可粘贴到其他应用
批量OCR使用步骤
🔍 步骤1:切换到批量模式
- 操作目的:准备批量处理图片
- 执行方法:点击顶部"批量OCR"标签
- 预期效果:界面显示文件列表和任务控制区域
🔍 步骤2:添加图片文件
- 操作目的:导入需要识别的图片
- 执行方法:点击"选择图片"按钮,批量选择图片文件
- 预期效果:选中的图片显示在文件列表中,包含文件名和大小信息
🔍 步骤3:开始批量识别
- 操作目的:执行批量OCR任务
- 执行方法:点击"开始任务"按钮,等待进度条完成
- 预期效果:程序按顺序处理图片,完成后显示识别结果和保存路径
进阶配置
基础配置
🔍 界面语言设置
- 操作目的:切换软件界面语言
- 执行方法:进入"全局设置",在"语言/Language"下拉菜单选择语言
- 预期效果:界面文字立即切换为所选语言
🔍 主题切换
- 操作目的:更改软件外观风格
- 执行方法:在"全局设置"的"主题"选项中选择喜欢的主题
- 预期效果:界面颜色和样式立即更新
高级配置
💡 OCR引擎设置
- 操作目的:优化识别 accuracy
- 执行方法:在"全局设置"中点击"高级"按钮,调整识别模型参数
- 预期效果:根据需求平衡识别速度和准确率
💡 快捷键自定义
- 操作目的:提高操作效率
- 执行方法:在"全局设置"的"快捷方式"区域自定义常用操作的快捷键
- 预期效果:通过自定义快捷键快速执行常用功能
常见问题
📌 Q: 识别结果出现乱码怎么办? A: 可能是选择了错误的语言模型。进入设置检查"语言/模型库"选项,确保选择与图片文字匹配的语言。
📌 Q: 批量处理时程序无响应? A: 尝试减少单次处理的图片数量,或关闭其他占用系统资源的程序。大图片建议先压缩尺寸再处理。
📌 Q: 如何导出识别结果? A: 在批量OCR模式下,可在"设置"中指定输出目录和文件格式,支持TXT和纯文本格式。
💡 提示:所有操作记录可在"记录"标签页查看,方便追溯历史识别结果。遇到复杂问题可查阅项目内的帮助文档或提交反馈。
通过以上步骤,你已经掌握了Umi-OCR的基本使用方法和高级技巧。这款强大的离线OCR工具将帮助你高效处理各种图片文字提取需求,提升工作学习效率。
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
登录后查看全文
热门项目推荐
相关项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0225- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01- IinulaInula(发音为:[ˈɪnjʊlə])意为旋覆花,有生命力旺盛和根系深厚两大特点,寓意着为前端生态提供稳固的基石。openInula 是一款用于构建用户界面的 JavaScript 库,提供响应式 API 帮助开发者简单高效构建 web 页面,比传统虚拟 DOM 方式渲染效率提升30%以上,同时 openInula 提供与 React 保持一致的 API,并且提供5大常用功能丰富的核心组件。TypeScript05
项目优选
收起
deepin linux kernel
C
27
13
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
627
4.14 K
Ascend Extension for PyTorch
Python
468
562
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
931
817
暂无简介
Dart
875
208
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.5 K
852
AscendNPU-IR是基于MLIR(Multi-Level Intermediate Representation)构建的,面向昇腾亲和算子编译时使用的中间表示,提供昇腾完备表达能力,通过编译优化提升昇腾AI处理器计算效率,支持通过生态框架使能昇腾AI处理器与深度调优
C++
114
185
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
130
191
昇腾LLM分布式训练框架
Python
138
160
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
69
21




