NVIDIA nv-ingest项目中YOLOX预测最小输入尺寸的强制实施

2025-06-29 05:14:35作者：殷蕙予

NVIDIA Ingest is an early access set of microservices for parsing hundreds of thousands of complex, messy unstructured PDFs and other enterprise documents into metadata and text to embed into retrieval systems.

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

背景介绍

在OCR（光学字符识别）处理流程中，目标检测模型YOLOX的性能和准确性对整个系统的表现至关重要。NVIDIA的nv-ingest项目作为PaddleOCR处理管道的一部分，需要确保输入到OCR识别模块的图像区域具有足够的质量，其中一个关键因素就是检测区域的尺寸。

问题分析

当YOLOX模型检测到的目标区域过小时（例如小于32x32像素），这些区域往往包含的信息量不足，导致后续OCR识别效果不佳。这不仅浪费计算资源处理无效数据，还可能引入噪声影响整体识别准确率。

技术方案

经过与PaddleOCR团队的深入讨论，决定在nv-ingest中实施以下改进：

最小尺寸阈值设定：将32x32像素作为最小可接受尺寸标准
过滤机制：在YOLOX NIM返回预测结果后，增加一个过滤层
处理时机：在完成所有YOLOX后处理步骤后，将图像区域发送给PaddleOCR之前

实现细节

该过滤机制会检查每个检测到的边界框的宽度和高度，丢弃任何一边小于32像素的检测结果。这种处理方式具有以下优势：

保持召回率：32x32的阈值经过验证不会显著影响有效检测的召回
提升效率：避免处理无效的小尺寸区域
提高质量：确保输入OCR模块的数据都具有足够的信息量

技术考量

选择32x32作为最小尺寸基于多方面考虑：

字符识别需求：大多数可读字符在32x32分辨率下能保持基本结构特征
计算效率：过小的区域难以提取有效特征
实践经验：该尺寸在测试中表现出良好的平衡性

预期效果

实施这一改进后，PaddleOCR处理管道将获得以下提升：

减少无效计算，提高整体处理速度
降低误识别率，提高OCR准确度
优化资源利用率，特别是在大规模处理场景下

这一改进体现了在深度学习处理流程中，合理的前置过滤机制对整体系统性能的重要性，展示了NVIDIA在优化AI处理管道方面的专业考量。

NeMo-Retriever

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781