Umi-OCR：离线多场景文本识别的专业级解决方案

2026-04-09 09:46:14作者：尤峻淳Whitney

Umi-OCR是一款免费开源的离线OCR软件，支持截图识别、批量处理与二维码解析，为学生、办公人员及开发者提供高效的图片文字提取工具，可满足教材摘录、文档电子化和代码识别等场景需求。

技术原理

Umi-OCR采用PaddleOCR作为核心识别引擎，通过深度学习模型实现文本检测与识别。软件架构分为图像预处理层（去噪、倾斜校正）、文本检测层（定位文字区域）、字符识别层（转换图像为文本）和后处理层（排版优化）四个模块。所有计算均在本地完成，平均识别精度达92%，单张图片处理速度小于0.5秒。

基础能力

截图OCR：快速捕获屏幕文本

当需要提取视频教程或网页中的代码片段时，传统手动输入效率低下且易出错。Umi-OCR的截图识别功能支持快捷键唤起（默认F4），划选区域后自动完成文字提取。左侧预览区可直接鼠标选择复制文本，右侧记录栏保留历史识别结果，支持二次编辑与导出。

操作步骤：

点击"截图OCR"标签页或按下F4快捷键
鼠标拖动选择待识别区域
识别完成后在右侧记录栏查看结果
使用右键菜单复制文本或图片

批量OCR：高效处理多图任务

企业档案电子化场景中，常需处理数百张扫描文档。Umi-OCR支持单次导入200+图片（JPG/PNG/WEBP/BMP格式），通过任务队列管理实现并行处理。提供TXT/JSONL/MD/CSV多种输出格式，可配置按原图目录结构保存或合并为单一文件。

性能指标：

项目	规格
最大并发数	8线程
单任务支持图片数	无限制
平均处理速度	30张/分钟
支持输出格式	TXT, JSONL, MD, CSV

进阶特性

配置忽略区域：精准排除干扰内容

扫描版PDF转换时，页眉页脚和水印会影响识别结果。Umi-OCR允许用户在批量任务设置中，通过右键绘制矩形区域标记需排除内容，系统将自动屏蔽这些区域的文字识别，提升结果纯净度。

多语言界面：全球化用户体验

国际团队协作时，软件界面语言需适配不同地区成员。Umi-OCR支持中文、英文、日文等10种界面语言，首次启动自动匹配系统语言，也可在全局设置中手动切换。

二维码识别：多码种解析能力

物流单据处理场景中，常需同时识别多个二维码。软件集成ZXing库，支持Aztec、Code128、QRCode等19种码制，可批量读取图片中的所有条码信息并生成结构化数据。

部署指南

环境要求

操作系统：Windows 7/10/11（64位）
硬件配置：最低2GB内存，推荐4GB以上
存储空间：至少200MB可用空间

安装步骤

克隆仓库：git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR
解压发布包：将Umi-OCR_Rapid_v2.1.5.7z解压至任意目录
启动程序：双击运行解压目录中的Umi-OCR.exe

开源协议与贡献

Umi-OCR采用GPLv3开源协议，源代码托管于GitCode平台。社区欢迎通过以下方式参与贡献：

提交Issue报告bug或建议新功能
Fork仓库并提交Pull Request
参与多语言翻译（详见dev-tools/i18n目录说明）
撰写使用教程或技术分析文章

项目持续接受功能改进建议，核心开发团队将优先处理提升识别精度和性能的相关议题。

Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

项目地址：https://gitcode.com/GitHub_Trending/um/Umi-OCR

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

985

Umi-OCR：离线多场景文本识别的专业级解决方案

技术原理

基础能力

截图OCR：快速捕获屏幕文本

批量OCR：高效处理多图任务

进阶特性

配置忽略区域：精准排除干扰内容

多语言界面：全球化用户体验

二维码识别：多码种解析能力

部署指南

环境要求

安装步骤

开源协议与贡献

热门内容推荐

最新内容推荐

项目优选

Umi-OCR：离线多场景文本识别的专业级解决方案

技术原理

基础能力

截图OCR：快速捕获屏幕文本

批量OCR：高效处理多图任务

进阶特性

配置忽略区域：精准排除干扰内容

多语言界面：全球化用户体验

二维码识别：多码种解析能力

部署指南

环境要求

安装步骤

开源协议与贡献

相关内容推荐

热门内容推荐

最新内容推荐

项目优选