MinerU项目中PaddleOCR内存泄漏问题分析与解决方案

2025-05-04 08:20:13作者：舒璇辛Bertina

背景介绍

MinerU是一款基于深度学习的PDF文档解析工具，能够对PDF文档进行版面分析、文本识别和结构化处理。在实际使用过程中，有开发者反馈该工具存在内存泄漏问题，特别是在使用OCR功能时内存占用会持续增长。

问题现象

通过memory_profiler工具检测发现，每次调用pipe_analyze()方法进行文档解析时，内存使用量都会显著增加约500MB左右，且这部分内存在解析完成后不会被释放。随着解析次数的增加，内存占用会持续累积，最终可能导致服务崩溃。

问题根源分析

经过技术团队调查，确认内存泄漏问题主要来源于PaddleOCR框架。具体表现为：

在调用OCR功能时，PaddleOCR会加载模型并进行推理，这部分内存没有被正确释放
每次解析PDF文档时都会重新初始化OCR相关资源，导致内存持续增长
该问题在PaddleOCR 2.7.3版本中仍然存在

解决方案

临时解决方案

定期重启服务：可以设置定时任务或监控脚本，在内存达到阈值时自动重启服务
优化调用频率：减少不必要的OCR调用，只在确实需要识别文本时启用该功能

长期解决方案

升级项目版本：MinerU新版本已经重构了代码架构，不再使用Pipe类，可能改善了内存管理
独立使用布局分析：如果只需要版面分析功能，可以单独调用DocLayoutYOLO模块，避免加载OCR相关组件
等待PaddleOCR更新：关注PaddleOCR官方更新，及时升级到修复了内存泄漏问题的版本

技术实现建议

对于只需要版面分析功能的开发者，可以参考以下实现方式：

直接使用DocLayoutYOLO模块进行文档版面分析
通过解析middle.json文件获取结构化数据，而不需要完整调用OCR流程
根据实际需求自定义解析流程，只加载必要的模型和组件

总结

内存泄漏是深度学习应用中常见的问题，特别是在使用第三方框架时。MinerU项目团队已经意识到这个问题，并在新版本中进行了架构优化。开发者可以根据自身需求选择合适的解决方案，平衡功能完整性和系统稳定性。

对于需要长期稳定运行的服务，建议采用定期重启策略，并密切关注PaddleOCR的更新动态。同时，合理设计应用架构，将OCR功能与其他模块解耦，可以更好地控制内存使用。

MinerU

Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.

项目地址：https://gitcode.com/GitHub_Trending/mi/MinerU

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

454

436

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

MinerU项目中PaddleOCR内存泄漏问题分析与解决方案

背景介绍

问题现象

问题根源分析

解决方案

临时解决方案

长期解决方案

技术实现建议

总结

热门内容推荐

最新内容推荐

项目优选

MinerU项目中PaddleOCR内存泄漏问题分析与解决方案

背景介绍

问题现象

问题根源分析

解决方案

临时解决方案

长期解决方案

技术实现建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选