Kreuzberg v2.0.0发布：文档处理工具的全面升级

2025-06-26 15:26:23作者：房伟宁

A text extraction library supporting PDFs, images, office documents and more

项目地址：https://gitcode.com/gh_mirrors/kr/kreuzberg

Kreuzberg是一个专注于文档处理的Python工具库，它提供了从各种文档格式（如PDF、Excel等）中提取文本和元数据的能力。最新发布的v2.0.0版本带来了多项重要改进和新特性，显著提升了文档处理的效率和可靠性。

同步方法与异步处理优化

v2.0.0版本引入了同步方法，为开发者提供了更灵活的选择。同时，项目从asyncio迁移到anyio，这一改变不仅增强了多循环兼容性，还简化了异步处理流程。anyio的采用使得Kreuzberg能够更好地处理并发任务，特别是在文档批量处理场景下表现更为出色。

智能PDF处理增强

新版本在PDF处理方面有两个重大改进：

自动OCR回退机制：现在Kreuzberg能够自动检测损坏或不可搜索的PDF文本内容，并智能地回退到OCR处理。这一特性大大减少了手动干预的需要，提高了处理流程的自动化程度。
元数据提取：通过集成Pandoc，Kreuzberg现在能够提取文档的元数据信息。这些元数据对于文档分类、检索和分析都非常有价值。

Excel处理能力提升

在电子表格处理方面，v2.0.0版本做出了显著改进：

使用python-calamine替代了原有的xslx2csv，性能得到提升
新增了对多工作表工作簿的支持，现在可以一次性提取Excel文件中的所有工作表内容
处理逻辑更加健壮，能够应对各种复杂的Excel文件结构

参数与配置优化

新版本对API进行了几项重要调整：

新增了language、psm和pax_processes等关键字参数，提供了更精细的控制选项
将force_ocr改为关键字参数，使API设计更加一致
更新了ExtractionResult结构，现在包含提取的元数据信息

性能与稳定性改进

在底层架构方面，v2.0.0版本进行了多项优化：

使用anyio.to_process管理Pandoc和Tesseract的工作进程，提高了资源利用率
内部代码结构重组，将_extractors命名空间拆分为更小的包，提高了代码的可维护性
测试覆盖率提高到99%以上，确保了代码质量
加强了linting规则，代码风格更加统一

兼容性考虑

值得注意的是，新版本对typing-extensions的依赖进行了调整，现在仅限Python 3.10及以下版本使用。这一变化需要开发者注意，特别是在升级现有项目时。

总结

Kreuzberg v2.0.0是一个重要的里程碑版本，它在文档处理能力、性能和API设计等方面都有显著提升。特别是自动OCR回退和多工作表支持等特性，使得它成为处理复杂文档任务的更加强大工具。对于需要从各种文档中提取信息的开发者来说，这个版本值得认真考虑升级。

A text extraction library supporting PDFs, images, office documents and more

项目地址：https://gitcode.com/gh_mirrors/kr/kreuzberg

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理