Docling项目离线环境下禁用OCR模型下载的解决方案

2025-05-06 12:14:31作者：彭桢灵Jeremy

在实际生产环境中，很多Linux服务器出于安全考虑会限制互联网访问，这给使用Docling这类依赖预训练模型的项目带来了挑战。本文将详细介绍如何在无网络连接的Linux服务器上使用Docling进行PDF文档解析，同时避免自动下载OCR模型的问题。

问题背景

Docling作为一款强大的文档处理工具，默认会从Hugging Face模型库下载OCR相关模型。当服务器无法访问互联网时，这一行为会导致程序运行失败。虽然用户尝试手动下载模型并复制到服务器缓存目录，但系统仍会尝试检查更新并下载。

核心解决方案

Docling提供了两种主要方式来解决这一问题：

完全禁用OCR功能：对于不需要OCR处理的PDF文档，可以直接关闭OCR功能
指定本地模型路径：对于需要OCR的场景，可以配置Docling使用预先下载的本地模型

方法一：禁用OCR处理

通过配置PdfPipelineOptions，可以完全关闭OCR功能：

from docling.document_converter import DocumentConverter
from docling import PdfPipelineOptions, InputFormat, PdfFormatOption

pipeline_options = PdfPipelineOptions()
pipeline_options.do_ocr = False  # 关键设置，禁用OCR
pipeline_options.do_table_structure = True
pipeline_options.table_structure_options.do_cell_matching = True

doc_converter = DocumentConverter(
    format_options={
        InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
    }
)

这种方法适用于处理本身包含可识别文本的标准PDF文档，无需OCR即可提取内容。

方法二：使用本地模型路径

对于必须使用OCR的场景，可以预先在有网络的机器上下载模型，然后指定本地路径：

from docling.document_converter import DocumentConverter
from docling import PdfPipelineOptions, InputFormat, PdfFormatOption

pipeline_options = PdfPipelineOptions()
pipeline_options.artifacts_path = "/path/to/local/models"  # 指定本地模型路径

doc_converter = DocumentConverter(
    format_options={
        InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
    }
)