首页
/ 【限时免费】 【MinerU】开源下载和安装教程

【限时免费】 【MinerU】开源下载和安装教程

2026-02-04 04:18:49作者:吴年前Myrtle

1、项目介绍

MinerU是一款高质量的开源数据提取工具,专注于将PDF文档转换为结构化的Markdown和JSON格式。支持复杂文档元素(如表格、图像、公式)的精准解析,适用于学术论文、技术文档等场景。

2、项目下载位置

  • GitHub仓库
    git clone https://github.com/opendatalab/MinerU.git
    
  • PyPI安装包
    pip install mineru
    

3、项目安装环境配置

基础环境要求

  • Python 3.8+
  • CUDA 11.7+(GPU加速推荐)

依赖安装示例

conda create -n mineru python=3.9  
conda activate mineru  
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu117  

环境配置示意图
(图示:Python虚拟环境创建与依赖安装)

4、项目安装方式

方式一:源码安装

cd MinerU  
pip install -e .  

方式二:Docker部署

docker pull opendatalab/mineru:latest  
docker run -it --gpus all -v /本地路径:/data mineru  

5、项目处理脚本

基础转换命令

from mineru import MinerU  
processor = MinerU(backend="pipeline")  
result = processor.convert("input.pdf", output_format="markdown")  

批量处理脚本示例

import glob  
for pdf_file in glob.glob("*.pdf"):  
    processor.convert(pdf_file, output_dir="output/")  

提示:运行前请确保已配置PDF解析依赖(如poppler-utils)。完整参数说明参考项目docs/目录。

登录后查看全文
热门项目推荐
相关项目推荐