Umi-OCR完全指南：从安装到精通的5个实用技巧

2026-03-31 09:34:51作者：裴锟轩Denise

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

项目地址：https://gitcode.com/GitHub_Trending/um/Umi-OCR

核心功能解析

Umi-OCR是一款免费开源的跨平台文字识别工具，通过OCR引擎（图像文字识别核心组件）实现离线图片转文字。其三大核心应用场景包括：

批量OCR处理：支持同时识别多张图片，适合处理扫描文档、截图集合等场景，通过UmiOCR-data/py_src/目录下的核心模块实现高效文字提取
多语言识别支持：内置国际化翻译文件（UmiOCR-data/i18n/），支持中日英等多语言界面与识别
插件扩展系统：通过UmiOCR-data/plugins/目录支持功能扩展，可定制OCR流程与输出格式

环境准备

系统兼容性说明

操作系统	支持状态	启动方式
Windows	完全支持	直接运行Umi-OCR.exe
Linux	部分支持	终端执行./umi-ocr.sh
macOS	实验阶段	需通过源码编译运行

安装步骤

获取项目源码

git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR

根据操作系统选择对应启动方式
- Windows用户：双击Umi-OCR.exe
- Linux用户：终端执行cd Umi-OCR && chmod +x umi-ocr.sh && ./umi-ocr.sh

操作指南

截图OCR快速上手

点击主界面"截图OCR"标签
拖动鼠标选择需要识别的区域
识别结果自动显示在右侧面板
右键菜单可复制文本或保存结果

批量OCR处理流程

切换至"批量OCR"标签页
点击"选择图片"添加待处理文件
设置输出目录与格式（TXT/JSON）
点击"开始任务"执行批量识别

进阶配置

可视化配置界面

通过"全局设置"标签页可调整：

界面语言：支持简体中文、英文、日文等
主题风格：提供多种预设主题切换
快捷键设置：自定义截图与识别快捷键
OCR引擎参数：调整识别精度与速度平衡

高级功能启用

插件管理：通过UmiOCR-data/plugins/目录安装扩展
命令行调用：支持通过CLI命令集成到工作流
HTTP接口：启用docs/http/目录下的API服务实现远程调用

零代码配置即可实现专业级OCR解决方案，适合个人与企业用户的多样化文字识别需求。开源OCR工具Umi-OCR通过直观界面与强大功能，让跨平台文字识别变得简单高效。

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

项目地址：https://gitcode.com/GitHub_Trending/um/Umi-OCR

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库