MinerU项目在AMD ROCm平台上的性能优化实践

2025-05-04 13:24:34作者：田桥桑Industrious

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

项目地址：https://gitcode.com/GitHub_Trending/mi/MinerU

项目背景

MinerU是一个基于深度学习的PDF文档解析工具，能够对文档中的文本、表格、公式等元素进行智能识别和结构化处理。该项目最初主要针对CPU和NVIDIA GPU平台进行优化，但在AMD ROCm平台上的运行性能存在明显不足。

问题现象

用户在使用AMD MI210专业计算卡运行MinerU时发现，7页PDF文档的解析时间达到142.36秒，远高于CPU平台的68.14秒。性能分析显示，OCR识别环节耗时最为严重，成为性能瓶颈。

技术分析

经过深入调查，发现性能问题主要由以下几个因素导致：

Torch版本冲突：用户最初安装了CPU版本的PyTorch，后覆盖安装ROCm版本，可能导致底层库冲突。
OCR引擎限制：早期版本使用的PaddleOCR对AMD ROCm平台支持不足，特别是仅支持ROCm 4.0版本，而现代AMD GPU需要ROCm 6.x版本。
模型适配问题：DocLayoutYOLO模型在ROCm平台上存在性能异常，卷积运算效率低下，即使GPU占用率达到100%，处理速度仍不理想。

解决方案

版本升级：
- 完全卸载原有PyTorch安装
- 安装专为ROCm 6.x优化的PyTorch版本
- 升级到MinerU 1.3.0版本，该版本将所有模型切换为Torch实现
模型替换：
- 将DocLayout模型替换为基础YOLOv10模型(yolov10l_ft.pt)
- 这一调整使布局预测速度从2.27页/秒提升到27.03页/秒
OCR引擎优化：
- 新版采用RapidOCR 2.0.5，完全基于Torch实现
- OCR识别速度显著提升，达到291.43项/秒

性能对比

优化前后关键指标对比：

指标	优化前	优化后
布局预测速度	2.27页/秒	27.03页/秒
OCR识别速度	35.21项/秒	291.43项/秒
7页解析时间	142.36秒	显著降低

实践建议

环境配置：
- 推荐使用Ubuntu 24.04.2系统
- 安装ROCm 6.3.4或更新版本
- 使用Python 3.12环境
性能监控：
- 使用rocm-smi工具监控GPU使用情况
- 对关键模块进行性能剖析
模型选择：
- 根据实际需求选择合适的模型版本
- 在ROCm平台上优先测试基础YOLOv10模型

未来展望

随着ROCm生态的不断完善和MinerU项目的持续优化，AMD GPU平台上的文档解析性能有望进一步提升。建议关注：

DocLayoutYOLO模型对ROCm平台的适配优化
ONNX Runtime在ROCm平台上的性能改进
新一代OCR引擎的持续演进

通过本次优化实践，MinerU在AMD ROCm平台上实现了显著的性能提升，为使用AMD硬件加速的用户提供了更好的体验。

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

项目地址：https://gitcode.com/GitHub_Trending/mi/MinerU

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

ohos_react_native

React Native鸿蒙化仓库