Kreuzberg项目OCR功能优化：实现Tesseract可选化设计

2025-07-08 03:57:08作者：乔或婵

A polyglot document intelligence framework with a Rust core. Extract text, metadata, images, and structured information from PDFs, Office documents, images, and 97+ formats. Available for Rust, Python, Ruby, Java, Go, PHP, Elixir, C#, R, C, TypeScript (Node/Bun/Wasm/Deno)- or use via CLI, REST API, or MCP server.

项目地址：https://gitcode.com/gh_mirrors/kr/xberg

背景与需求分析

在文档处理领域，OCR（光学字符识别）技术是文本提取的核心组件。Kreuzberg作为一个功能强大的文档处理库，其早期版本强制依赖Tesseract OCR引擎，这在实际应用中产生了两个显著问题：

环境依赖问题：用户必须安装Tesseract才能使用基础功能，增加了部署复杂度
灵活性不足：对于纯文本提取场景，OCR处理反而会造成不必要的性能开销

技术实现方案

架构改造

项目在v3版本中进行了架构重构，主要改进包括：

模块化设计：将OCR功能拆分为独立模块
依赖注入：通过策略模式实现OCR引擎的可插拔
降级处理：当Tesseract不可用时自动切换至纯文本提取模式

核心接口变更

class ExtractionConfig:
    def __init__(
        self,
        use_ocr: bool = True,  # 是否启用OCR功能
        ocr_engine: Optional[OcrEngine] = None,  # 可注入自定义OCR引擎
        fallback_to_text: bool = True  # OCR失败时是否回退到文本提取
    ):
        ...

使用指南

基础用法

# 强制禁用OCR
result = await extract_bytes(
    file_data,
    mime_type=file_type,
    use_ocr=False
)

# 使用系统默认OCR引擎
result = await extract_bytes(
    file_data,
    mime_type=file_type,
    use_ocr=True
)

高级配置

# 自定义OCR引擎
class CustomOcrEngine(OcrEngine):
    async def extract_text(self, image: Image) -> str:
        # 实现自定义识别逻辑
        return processed_text

result = await extract_bytes(
    file_data,
    config=ExtractionConfig(
        ocr_engine=CustomOcrEngine()
    )
)