首页
/ Umi-OCR:离线多场景文本识别的专业级解决方案

Umi-OCR:离线多场景文本识别的专业级解决方案

2026-04-09 09:46:14作者:尤峻淳Whitney

Umi-OCR是一款免费开源的离线OCR软件,支持截图识别、批量处理与二维码解析,为学生、办公人员及开发者提供高效的图片文字提取工具,可满足教材摘录、文档电子化和代码识别等场景需求。

技术原理

Umi-OCR采用PaddleOCR作为核心识别引擎,通过深度学习模型实现文本检测与识别。软件架构分为图像预处理层(去噪、倾斜校正)、文本检测层(定位文字区域)、字符识别层(转换图像为文本)和后处理层(排版优化)四个模块。所有计算均在本地完成,平均识别精度达92%,单张图片处理速度小于0.5秒。

基础能力

截图OCR:快速捕获屏幕文本

当需要提取视频教程或网页中的代码片段时,传统手动输入效率低下且易出错。Umi-OCR的截图识别功能支持快捷键唤起(默认F4),划选区域后自动完成文字提取。左侧预览区可直接鼠标选择复制文本,右侧记录栏保留历史识别结果,支持二次编辑与导出。

Umi-OCR截图识别界面

操作步骤

  1. 点击"截图OCR"标签页或按下F4快捷键
  2. 鼠标拖动选择待识别区域
  3. 识别完成后在右侧记录栏查看结果
  4. 使用右键菜单复制文本或图片

批量OCR:高效处理多图任务

企业档案电子化场景中,常需处理数百张扫描文档。Umi-OCR支持单次导入200+图片(JPG/PNG/WEBP/BMP格式),通过任务队列管理实现并行处理。提供TXT/JSONL/MD/CSV多种输出格式,可配置按原图目录结构保存或合并为单一文件。

Umi-OCR批量处理界面

性能指标

项目 规格
最大并发数 8线程
单任务支持图片数 无限制
平均处理速度 30张/分钟
支持输出格式 TXT, JSONL, MD, CSV

进阶特性

配置忽略区域:精准排除干扰内容

扫描版PDF转换时,页眉页脚和水印会影响识别结果。Umi-OCR允许用户在批量任务设置中,通过右键绘制矩形区域标记需排除内容,系统将自动屏蔽这些区域的文字识别,提升结果纯净度。

多语言界面:全球化用户体验

国际团队协作时,软件界面语言需适配不同地区成员。Umi-OCR支持中文、英文、日文等10种界面语言,首次启动自动匹配系统语言,也可在全局设置中手动切换。

Umi-OCR多语言设置界面

二维码识别:多码种解析能力

物流单据处理场景中,常需同时识别多个二维码。软件集成ZXing库,支持Aztec、Code128、QRCode等19种码制,可批量读取图片中的所有条码信息并生成结构化数据。

部署指南

环境要求

  • 操作系统:Windows 7/10/11(64位)
  • 硬件配置:最低2GB内存,推荐4GB以上
  • 存储空间:至少200MB可用空间

安装步骤

  1. 克隆仓库:git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR
  2. 解压发布包:将Umi-OCR_Rapid_v2.1.5.7z解压至任意目录
  3. 启动程序:双击运行解压目录中的Umi-OCR.exe

开源协议与贡献

Umi-OCR采用GPLv3开源协议,源代码托管于GitCode平台。社区欢迎通过以下方式参与贡献:

  • 提交Issue报告bug或建议新功能
  • Fork仓库并提交Pull Request
  • 参与多语言翻译(详见dev-tools/i18n目录说明)
  • 撰写使用教程或技术分析文章

项目持续接受功能改进建议,核心开发团队将优先处理提升识别精度和性能的相关议题。

登录后查看全文
热门项目推荐
相关项目推荐