4个步骤掌握NDLOCR CLI：从安装到高级配置

2026-04-03 09:05:45作者：裘晴惠Vivianne

功能总览

NDLOCR CLI是一款专注于文档识别全流程的命令行工具，通过OCR识别技术实现对各类文档的自动化处理。该工具特别适用于需要批量处理扫描文档、古籍数字化、印刷品文字提取等场景，能够高效完成从图像预处理到结构化文本输出的完整流程。作为开源项目，它提供了模块化的处理架构，支持用户根据实际需求灵活配置处理流程，同时兼容多种输入输出格式，满足学术研究、档案管理、数据挖掘等不同领域的应用需求。无论是处理单页文档还是大规模文档集合，NDLOCR CLI都能提供稳定可靠的识别结果，帮助用户快速将图像信息转化为可编辑、可检索的文本数据。

核心组件

数据处理模块

数据处理模块是文档识别流程的起点，负责对输入图像进行预处理，为后续分析提供高质量的图像数据。该模块的输入为原始图像文件，输出经过优化的图像数据。其中，submodules/deskew_HT 提供倾斜校正功能，适用于扫描文档因放置角度问题导致的图像倾斜场景，通过校正确保文字行水平，提高后续识别准确率；submodules/separate_pages_mmdet 实现页面分离，能够从多页文档图像中自动分割出单页内容，适用于处理扫描的装订文档或多页PDF转换的图像。

布局分析模块

布局分析模块通过 submodules/ndl_layout 实现对文档页面结构的解析，输入为预处理后的单页图像，输出页面内各区域的布局信息。该模块能够识别文本块、图片、表格等不同类型的页面元素，并确定它们在页面中的位置和范围。这一功能适用于需要对文档内容进行结构化提取的场景，例如将学术论文中的标题、摘要、正文、参考文献等部分分别提取，为后续的内容分析和信息抽取奠定基础。

文字识别模块

文字识别模块是核心功能模块，由 submodules/text_recognition_lightning 提供支持，输入为布局分析后的文本区域图像，输出识别得到的文字内容。该模块不仅能够识别常见的印刷体文字，还支持对标题、作者等特定信息的识别。适用于将图像中的文字转化为可编辑文本的场景，如数字化古籍中的文字提取、扫描合同的文本化处理等，大大减少了人工录入的工作量。

结果输出模块

结果输出模块负责将识别得到的文字内容以结构化的形式输出，支持生成文本文件和XML文件。其中，submodules/reading_order 处理文本的读取顺序，确保输出的文本按照自然阅读顺序排列；submodules/ruby_prediction 提供注音推定功能，适用于包含注音文字的文档处理。该模块的输出结果可直接用于进一步的文本分析、数据存储或内容展示，满足不同用户对结果格式的需求。

操作指南

准备工作

在开始使用NDLOCR CLI之前，您需要完成环境的搭建。首先，克隆项目仓库，使用命令 git clone https://gitcode.com/gh_mirrors/nd/ndlocr_cli 获取项目源码。然后，进入项目目录，通过 pip install -r requirements.txt 安装所需的Python依赖包。建议您使用虚拟环境进行安装，以避免与其他项目的依赖产生冲突。此外，还需要确保系统中已安装必要的系统库，如OpenCV等，具体可参考项目的 README.md 文件。

基础命令

NDLOCR CLI的基础使用命令格式为 python main.py infer <input_data_dir> <output_dir> -s <step>，其中 <input_data_dir> 是存放输入图像文件的目录，<output_dir> 是指定的输出结果目录，<step> 参数用于指定执行的处理步骤。例如，若要执行完整的文档识别流程，您可以使用命令 python main.py infer ./input_images ./output_results -s all，该命令将对 ./input_images 目录下的所有图像进行处理，并将结果保存到 ./output_results 目录中。

高级参数

除了基础命令外，NDLOCR CLI还提供了多种高级参数，以满足更复杂的处理需求。例如，--intermediate 参数可以启用中间结果输出，保存处理过程中的中间图像和数据，方便您进行问题排查和流程优化；--config 参数允许您指定自定义的配置文件路径，实现个性化的处理流程配置。建议您在使用高级参数前，先通过 python main.py --help 查看完整的参数说明，了解各参数的具体作用和使用方法。

常见问题

在使用过程中，您可能会遇到一些常见问题。例如，当输入图像质量较差时，识别准确率可能会受到影响，此时建议您先对图像进行预处理，如调整对比度、去除噪声等；如果出现模块加载错误，可能是由于子模块未正确初始化，您可以通过 git submodule update --init --recursive 命令更新子模块。另外，处理大规模数据时，建议您合理设置批处理大小，以避免内存溢出问题。

新手常见误区：部分用户在首次使用时，容易忽略子模块的初始化步骤，导致程序运行时出现模块缺失错误。请务必在克隆项目后执行子模块更新命令，确保所有依赖模块正确加载。

配置解析

基础配置

基础配置主要包含在 config.yml 文件中，用于设置文档识别流程的基本参数。以下是部分核心配置项的说明：

配置项	作用	默认值	推荐值
line_order	启用读取顺序识别	false	true
ruby_read	启用注音推定	false	根据文档是否包含注音文字设置
add_title_author	启用标题和作者识别	false	true（学术文档处理）