零门槛玩转Umi-OCR:全平台离线OCR工具使用指南
2026-03-31 08:58:18作者:胡易黎Nicole
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
Umi-OCR是一款免费开源的离线OCR(光学字符识别技术)软件,支持截图识别、批量处理和二维码识别等核心功能,特别适合需要快速提取图片文字的办公人士、学生和开发者。本指南将帮助你从环境准备到高级配置,轻松掌握这款工具的全部用法。
核心功能概览
Umi-OCR提供三大核心功能,满足不同场景的文字识别需求:
📌 截图OCR:实时截取屏幕区域并识别文字,支持滚动截图和文本编辑 📌 批量OCR:一次性处理多张图片,自动生成可编辑文本文件 📌 多语言支持:内置多种语言识别模型,支持界面国际化切换
核心文件功能速查表
| 文件/目录 | 功能说明 |
|---|---|
| Umi-OCR.exe | Windows平台主程序,双击直接运行 |
| umi-ocr.sh | Linux平台启动脚本,终端执行 |
| UmiOCR-data/main.py | 程序核心入口,开发者可查看源码 |
| UmiOCR-data/qt_res | 界面资源文件,包含图标和主题 |
| UmiOCR-data/plugins | 功能扩展插件目录 |
| UmiOCR-data/i18n | 多语言翻译文件存储 |
环境准备
新手快速启动
🔍 Windows系统:
- 操作目的:快速启动应用
- 执行方法:找到并双击"Umi-OCR.exe"文件
- 预期效果:程序启动并显示主界面,默认进入截图OCR模式
🔍 Linux系统:
- 操作目的:通过终端启动应用
- 执行方法:打开终端,进入项目目录,输入
./umi-ocr.sh并回车 - 预期效果:终端显示启动日志,随后打开Umi-OCR主窗口
⚠️ 注意:首次运行可能需要等待程序加载OCR模型,这是正常现象。
开发者启动选项
💡 如果你需要修改源码或调试程序,可以通过Python直接运行:
# 克隆项目仓库
git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR
# 进入项目目录
cd Umi-OCR
# 运行源码
python UmiOCR-data/main.py
操作流程
截图OCR使用步骤
🔍 步骤1:进入截图模式
- 操作目的:激活截图功能
- 执行方法:点击主界面顶部的"截图OCR"标签
- 预期效果:界面切换到截图操作模式,显示截图工具栏
🔍 步骤2:选择截图区域
- 操作目的:框选需要识别的文字区域
- 执行方法:点击工具栏中的截图按钮,用鼠标拖动选择区域
- 预期效果:选中区域被红色边框标记,松开鼠标后自动开始识别
🔍 步骤3:处理识别结果
- 操作目的:复制或编辑识别后的文字
- 执行方法:右键点击识别结果,选择"复制"或"全选"
- 预期效果:文字被复制到剪贴板,可粘贴到其他应用
批量OCR使用步骤
🔍 步骤1:切换到批量模式
- 操作目的:准备批量处理图片
- 执行方法:点击顶部"批量OCR"标签
- 预期效果:界面显示文件列表和任务控制区域
🔍 步骤2:添加图片文件
- 操作目的:导入需要识别的图片
- 执行方法:点击"选择图片"按钮,批量选择图片文件
- 预期效果:选中的图片显示在文件列表中,包含文件名和大小信息
🔍 步骤3:开始批量识别
- 操作目的:执行批量OCR任务
- 执行方法:点击"开始任务"按钮,等待进度条完成
- 预期效果:程序按顺序处理图片,完成后显示识别结果和保存路径
进阶配置
基础配置
🔍 界面语言设置
- 操作目的:切换软件界面语言
- 执行方法:进入"全局设置",在"语言/Language"下拉菜单选择语言
- 预期效果:界面文字立即切换为所选语言
🔍 主题切换
- 操作目的:更改软件外观风格
- 执行方法:在"全局设置"的"主题"选项中选择喜欢的主题
- 预期效果:界面颜色和样式立即更新
高级配置
💡 OCR引擎设置
- 操作目的:优化识别 accuracy
- 执行方法:在"全局设置"中点击"高级"按钮,调整识别模型参数
- 预期效果:根据需求平衡识别速度和准确率
💡 快捷键自定义
- 操作目的:提高操作效率
- 执行方法:在"全局设置"的"快捷方式"区域自定义常用操作的快捷键
- 预期效果:通过自定义快捷键快速执行常用功能
常见问题
📌 Q: 识别结果出现乱码怎么办? A: 可能是选择了错误的语言模型。进入设置检查"语言/模型库"选项,确保选择与图片文字匹配的语言。
📌 Q: 批量处理时程序无响应? A: 尝试减少单次处理的图片数量,或关闭其他占用系统资源的程序。大图片建议先压缩尺寸再处理。
📌 Q: 如何导出识别结果? A: 在批量OCR模式下,可在"设置"中指定输出目录和文件格式,支持TXT和纯文本格式。
💡 提示:所有操作记录可在"记录"标签页查看,方便追溯历史识别结果。遇到复杂问题可查阅项目内的帮助文档或提交反馈。
通过以上步骤,你已经掌握了Umi-OCR的基本使用方法和高级技巧。这款强大的离线OCR工具将帮助你高效处理各种图片文字提取需求,提升工作学习效率。
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust075- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00
项目优选
收起
暂无描述
Dockerfile
690
4.46 K
Ascend Extension for PyTorch
Python
544
669
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
955
929
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
420
75
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
407
324
昇腾LLM分布式训练框架
Python
146
172
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
650
232
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.08 K
564
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.59 K
925
TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。
Python
642
292




