Kreuzberg v3.0.0 发布：OCR 文档处理框架的重大升级

2025-06-26 14:07:29作者：羿妍玫Ivan

A polyglot document intelligence framework with a Rust core. Extract text, metadata, images, and structured information from PDFs, Office documents, images, and 97+ formats. Available for Rust, Python, Ruby, Java, Go, PHP, Elixir, C#, R, C, TypeScript (Node/Bun/Wasm/Deno)- or use via CLI, REST API, or MCP server.

项目地址：https://gitcode.com/gh_mirrors/kr/kreuzberg

Kreuzberg 是一个专注于文档处理的 Python 框架，特别擅长从各种文档格式（如 PDF、图像等）中提取文本内容。最新发布的 v3.0.0 版本带来了多项重要改进，使框架更加灵活、强大且易于扩展。

核心功能增强

多 OCR 引擎支持

v3.0.0 版本最大的亮点之一是增加了对多种 OCR 引擎的支持。除了原有的 Tesseract OCR（现在变为可选），现在开发者可以自由选择 PaddleOCR 或 Easy OCR 作为替代方案。这种多引擎架构设计使得：

开发者可以根据项目需求选择最适合的 OCR 解决方案
不同引擎可以针对特定类型的文档或语言提供更好的识别效果
系统具备了更强的容错能力，当某个引擎出现问题时可以快速切换

灵活的扩展机制

新版本引入了强大的扩展机制，允许开发者：

自定义提取器：可以创建针对特定文档格式或内容类型的专用提取器
覆盖内置提取器：当默认提取器不满足需求时，可以完全替换它们
处理钩子：通过预处理和后处理钩子在提取流程中插入自定义逻辑
验证钩子：在结果返回前对提取内容进行验证和修正

这种架构设计使得 Kreuzberg 能够适应各种复杂的文档处理场景。

新增功能详解

PDF 元数据提取

通过集成 Playa-PDF，Kreuzberg 现在能够提取 PDF 文档的元数据信息，如作者、创建日期、修改日期等。这对于文档管理系统和内容分析应用特别有价值。

内容分块支持

新增的可选内容分块功能允许将大型文档分割成逻辑块进行处理，这对处理长文档或需要分段分析的场景特别有用。开发者可以：

控制分块大小
定义分块边界
对每个分块应用不同的处理逻辑

无 OCR 模式

对于纯文本或已有文本层的 PDF 文档，现在可以选择完全禁用 OCR 处理，提高处理效率并减少资源消耗。

架构改进

v3.0.0 对内部架构进行了重大重构：

从函数式转向基于类的设计，提高了代码的可维护性和可扩展性
ExtractionResults 从 NamedTuple 改为 TypedDict，提供了更灵活的结果结构
各组件间解耦更彻底，模块化程度更高

这些改进使得框架更容易适应未来的功能扩展和定制需求。

文档与开发者体验

伴随此次发布，项目还新增了完整的文档网站，内容包括：

安装和配置指南
API 参考
扩展开发教程
最佳实践示例

这对于新用户快速上手和高级用户深入定制都大有裨益。

总结

Kreuzberg v3.0.0 通过引入多 OCR 引擎支持、强大的扩展机制和更灵活的架构，显著提升了框架的实用性和适应性。无论是处理简单的文档提取任务，还是构建复杂的文档处理流水线，新版本都提供了更完善的解决方案。对于需要从各种文档中提取和分析内容的开发者来说，这无疑是一个值得关注的升级。

kreuzberg

项目地址：https://gitcode.com/gh_mirrors/kr/kreuzberg

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Kreuzberg v3.0.0 发布：OCR 文档处理框架的重大升级

核心功能增强

多 OCR 引擎支持

灵活的扩展机制

新增功能详解

PDF 元数据提取

内容分块支持

无 OCR 模式

架构改进

文档与开发者体验

总结

相关内容推荐

最新内容推荐

项目优选