MinerU项目OCR模块昇腾NPU加速方案的技术演进

2025-05-04 00:50:34作者：郦嵘贵Just

背景介绍

MinerU作为一款开源数据处理工具，其OCR(光学字符识别)功能在NPU(神经网络处理器)上的实现目前采用的是ONNX(开放神经网络交换)格式的推理方案。这种方案虽然能够实现基本的NPU加速，但并非最优化的解决方案。

当前技术方案分析

目前MinerU的OCR模块在NPU上运行的是ONNX推理流程。ONNX作为一种开放的模型表示格式，确实具有跨平台的优势，能够在不同硬件上运行。然而，这种通用性也带来了一定的性能损失，无法充分发挥特定硬件如昇腾NPU的全部潜力。

ONNX推理在昇腾NPU上运行时，需要通过额外的转换层和兼容层，这会引入一定的计算开销。特别是在处理OCR这种对实时性要求较高的任务时，这种间接性会限制性能的进一步提升。

昇腾NPU原生加速方案

昇腾系列NPU(如910B)提供了专门的ATC(Ascend Tensor Compiler)工具链，能够将模型转换为专有的OM(Offline Model)格式。这种离线模型格式针对昇腾架构进行了深度优化，具有以下优势：

计算图优化：ATC工具会对计算图进行特定于昇腾架构的优化，包括算子融合、内存布局调整等
硬件指令级优化：生成的OM模型直接使用昇腾NPU的专用指令集
内存访问优化：针对昇腾的内存层次结构进行数据排布优化
低延迟推理：省去了ONNX运行时的解释开销

技术演进方向

根据项目方的反馈，MinerU团队正在规划一个"NPU高性能版"，重点提升OCR模块的推理速度。这一演进方向非常合理，特别是在以下方面值得期待：

模型格式转换：将现有的PaddleOCR和RapidOCR模型通过ATC工具转换为OM格式
推理引擎优化：使用昇腾CANN(Compute Architecture for Neural Networks)提供的原生接口
预处理/后处理加速：利用NPU的AI Core处理更多计算密集型任务
流水线优化：实现更高效的CPU-NPU协同计算

实际应用价值

采用OM格式进行离线推理后，预计可以获得以下实际效益：

推理延迟降低30%-50%
吞吐量提升2-3倍
能效比显著提高
更稳定的性能表现

这对于MinerU处理大规模文档识别、实时视频文字提取等场景尤为重要。用户将能够处理更大规模的数据集，或者在相同硬件条件下获得更快的响应速度。

总结

MinerU项目在OCR模块上的技术演进，体现了从通用解决方案向专用硬件优化的发展路径。转向昇腾NPU原生OM格式的推理方案，不仅能够提升当前性能，也为未来集成更复杂的模型和算法奠定了基础。这一技术路线对于希望在昇腾生态中获得最佳性能的用户尤为重要。

MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

项目地址：https://gitcode.com/GitHub_Trending/mi/MinerU

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781