【MinerU】开源下载和安装教程

2026-02-04 04:47:30作者：范靓好Udolf

1、项目介绍

MinerU是一款高质量的开源数据提取工具，专注于将PDF文档转换为结构化的Markdown和JSON格式。支持复杂文档元素（如表格、图像、公式）的精准解析，并提供多后端适配（如transformers、sglang等）。适用于学术文献处理、企业文档自动化等场景。

2、项目下载位置

官方GitHub仓库：opendatalab/MinerU
PyPI包：mineru
推荐通过pip直接安装最新稳定版：
```
pip install mineru
```

3、项目安装环境配置

基础环境要求

Python ≥ 3.8
CUDA ≥ 11.7（GPU加速推荐）
系统内存 ≥ 8GB

环境配置示例
（图示：通过nvidia-smi命令验证CUDA环境）

4、项目安装方式

方式一：pip快速安装

pip install mineru[all]  # 安装全部依赖

方式二：源码安装

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
pip install -e .[dev]  # 开发模式安装

方式三：Docker部署

docker pull opendatalab/mineru:latest
docker run -it --gpus all -v /path/to/data:/data mineru

5、项目处理脚本

基础转换示例

from mineru import MinerU

processor = MinerU(backend="pipeline")  # 使用pipeline后端
result = processor.convert("input.pdf", output_format="markdown")
print(result)

批量处理脚本

import glob
from mineru import MinerU

processor = MinerU()
for pdf_file in glob.glob("*.pdf"):
    processor.convert(pdf_file, output_dir="output/")

高级参数配置

processor = MinerU(
    backend="vlm",
    device="cuda:0",
    table_parse_mode="hybrid"
)

注意：首次运行会自动下载模型权重（约2GB），请确保网络通畅

MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

项目地址：https://gitcode.com/OpenDataLab/MinerU

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

128

173