NVIDIA nv-ingest项目内容提取结果的JSON格式解析

2025-06-29 22:43:19作者：农烁颖Land

NVIDIA Ingest is an early access set of microservices for parsing hundreds of thousands of complex, messy unstructured PDFs and other enterprise documents into metadata and text to embed into retrieval systems.

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

在数据处理和内容管理领域，NVIDIA的nv-ingest项目提供了一个强大的内容提取工具，能够将各种格式的文档转换为结构化的JSON数据。理解这种JSON输出格式对于开发者有效利用提取结果至关重要。

JSON输出结构概述

nv-ingest生成的JSON输出遵循特定的模式，主要包含以下几个关键部分：

文档元数据：包含文档的基本信息，如创建时间、修改时间、文件大小等
内容结构：反映文档的层次结构，如章节、段落等
文本内容：提取的实际文本内容
格式信息：保留原始文档的格式特征，如字体、颜色等
嵌入对象：处理文档中的图片、表格等非文本元素

典型字段解析

元数据部分

"metadata": {
    "title": "示例文档",
    "author": "张三",
    "creation_date": "2023-01-15T08:30:00Z",
    "modification_date": "2023-02-20T14:45:00Z",
    "file_size": 24576,
    "page_count": 12
}

这部分包含文档的基本描述信息，对于文档管理和检索非常有用。

内容结构部分

"structure": {
    "type": "document",
    "children": [
        {
            "type": "section",
            "title": "第一章",
            "children": [
                {
                    "type": "paragraph",
                    "content": "这是第一章的第一个段落..."
                }
            ]
        }
    ]
}

这种树状结构精确反映了文档的组织方式，便于后续的内容分析和处理。

文本内容部分

"content": [
    {
        "type": "text",
        "value": "这是提取的文本内容",
        "position": {
            "page": 1,
            "bounding_box": [100, 200, 300, 250]
        }
    }
]