NVIDIA nv-ingest项目中的图表与表格提取架构优化

2025-06-29 13:31:53作者：范靓好Udolf

NeMo Retriever Library is a scalable, performance-oriented document content and metadata extraction microservice. NeMo Retriever Library uses specialized NVIDIA NIM microservices to find, contextualize, and extract text, tables, charts and images that you can use in downstream generative applications.

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

在文档处理领域，表格和图表的高效提取一直是一个关键挑战。NVIDIA的nv-ingest项目近期对其文档处理流程进行了重要架构调整，将原本内置于PDF处理模块的表格和图表提取功能独立出来，实现了更灵活、更通用的处理架构。

原有架构分析

在优化前的架构中，表格和图表的提取流程完全嵌入在PDF处理模块内部。当系统处理PDF文档时，会依次执行以下步骤：

首先通过YOLOX模型识别文档中的表格和图表区域
对于识别出的表格区域，使用PaddleOCR进行表格内容提取
对于识别出的图表区域，则使用Deplot模型结合缓存机制进行图表数据提取

这种架构虽然能够完成基本功能，但存在几个明显不足：首先，处理逻辑与PDF格式强耦合，难以扩展到其他文档类型；其次，代码复用性差，相同的图像处理逻辑需要在不同模块中重复实现；最后，不利于针对特定处理步骤进行独立优化。

新架构设计

优化后的架构采用了分层设计思想，将核心处理步骤解耦为独立阶段：

1. 文档提取层

支持多种文档类型，包括PDF、Word(docx)、PowerPoint(pptx)以及图片格式(JPEG/PNG)
每种文档类型有独立的提取模块，负责将文档内容转换为中间表示

2. 识别层

统一的YOLOX模型服务，负责从各种文档中识别表格和图表区域
输出标准化的区域标注信息，与文档类型无关

3. 提取层

表格提取阶段：接收识别出的表格区域，使用PaddleOCR提取结构化数据
图表提取阶段：接收识别出的图表区域，使用Deplot模型提取数据

4. 下游处理层

接收提取出的表格和图表数据
可灵活接入各种后续处理流程，如数据分析、可视化等

技术优势

这种架构重构带来了多方面的技术优势：

跨格式支持：新的架构使得系统能够以统一的方式处理各种文档格式中的表格和图表，大大扩展了应用场景。

模块化设计：每个处理阶段都可以独立开发、测试和优化，提高了系统的可维护性。

性能优化：可以针对特定处理阶段(如OCR或图表解析)进行针对性优化，而不影响其他处理流程。

资源复用：避免了在不同文档处理模块中重复实现相同的图像处理逻辑，减少了代码冗余。

实现考量

在实际实现过程中，有几个关键技术点需要考虑：

中间表示标准化：不同文档类型提取出的图像数据需要转换为统一的格式，以便后续处理阶段能够一致处理。
错误处理机制：需要设计健壮的错误处理流程，确保某个处理阶段的失败不会导致整个流程崩溃。
性能监控：独立阶段的设计使得可以更精确地监控每个处理步骤的性能表现。
缓存策略：特别是对于计算密集型的图表解析，合理的缓存机制可以显著提高处理效率。

应用前景

这种架构改进为文档处理系统带来了更大的灵活性和扩展性。未来可以在此基础上：

更容易地集成新的文档类型支持
针对特定场景替换或优化某个处理阶段
实现更复杂的处理流程组合
支持分布式处理架构，提高大规模文档处理的效率

这种架构设计思路不仅适用于nv-ingest项目，对于其他需要处理复杂文档的系统也具有参考价值，体现了现代软件设计中解耦和模块化的重要原则。

NeMo-Retriever

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

pytorch

Ascend Extension for PyTorch

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

458

5.24 K