【限时免费】 MinerU 2.1.0版本发布：文档智能处理工具的重大升级

2026-02-04 05:13:40作者：牧宁李

MinerU是一款专注于文档智能处理的工具，它能够高效地解析各种格式的文档，提取其中的文本、表格、公式等结构化信息。作为一款开源项目，MinerU在学术界和工业界都获得了广泛关注，特别是在需要处理大量文档的场景下表现出色。

近日，MinerU发布了2.1.0版本，这是2.x系列的第一个大版本更新，带来了显著的性能提升和多项新功能。作为技术专家，我将深入解析这次更新的技术亮点及其实际应用价值。

核心性能优化

在2.1.0版本中，开发团队对系统性能进行了多方面的优化：

首先，针对特定分辨率文档（长边约2000像素）的预处理速度得到了大幅提升。这一优化对于那些扫描质量较高、分辨率较大的文档处理尤为明显，能够显著缩短整体处理时间。

其次，在批量处理场景下，当文档页数较少（小于10页）时，pipeline后端的后处理速度得到了显著改善。这一优化对于需要处理大量短文档的用户特别有价值，比如处理合同、发票等场景。

值得一提的是，pipeline后端的布局分析速度提升了约20%，这意味着系统能够更快地识别文档中的文本区域、表格区域等结构元素，为后续的内容提取打下坚实基础。

用户体验提升

2.1.0版本在用户体验方面做了多项改进：

新版本内置了fastapi服务和gradio webui，为用户提供了更加友好的交互方式。fastapi服务适合开发者集成到自己的系统中，而gradio webui则为非技术用户提供了直观的可视化界面。

在硬件适配性方面，vlm-sglang后端的显存需求得到了显著降低。现在最低只需要8GB显存（Turing及以后架构）的显卡就能运行，这大大降低了用户的使用门槛。

此外，新版本增强了sglang的参数透传功能，使得sglang-engine后端能够接收sglang的所有参数，为用户提供了更灵活的配置选项。

创新功能亮点

2.1.0版本引入了多项创新功能：

pipeline后端现在采用了PP-OCRv5多语种文本识别模型，支持包括法语、西班牙语、葡萄牙语、俄语、韩语等在内的37种语言的文字识别。与之前版本相比，平均识别精度提升了30%以上，这对于处理多语言文档的用户来说是个重大利好。

另一个值得关注的新特性是对竖排文本的有限支持。虽然目前功能还处于初级阶段，但已经能够处理一些基本的竖排文本场景，为处理传统中文、日文等竖排文档提供了可能。

配置扩展能力

2.1.0版本增强了系统的可配置性，用户现在可以通过配置文件实现多项功能扩展：

自定义公式标识符功能允许用户根据实际需求调整公式的识别规则；标题分级功能可以帮助用户更好地组织文档结构；而自定义本地模型目录则为用户提供了更大的灵活性，可以根据自己的硬件条件和需求选择合适的模型。

这些配置扩展能力使得MinerU能够更好地适应不同用户的具体需求，提高了工具的适用性和灵活性。

总结

MinerU 2.1.0版本的发布标志着这款文档智能处理工具进入了一个新的发展阶段。通过性能优化、用户体验改进和功能增强，新版本为用户提供了更强大、更易用的文档处理能力。无论是学术研究还是商业应用，MinerU都展现出了巨大的潜力和价值。

对于需要处理大量文档的用户来说，升级到2.1.0版本将带来显著的工作效率提升。特别是那些处理多语言文档或需要批量处理短文档的用户，新版本的多项优化将直接转化为生产力提升。

MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

项目地址：https://gitcode.com/OpenDataLab/MinerU

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

456

438

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

【限时免费】 MinerU 2.1.0版本发布：文档智能处理工具的重大升级

核心性能优化

用户体验提升

创新功能亮点

配置扩展能力

总结

热门内容推荐

最新内容推荐

项目优选

【限时免费】 MinerU 2.1.0版本发布：文档智能处理工具的重大升级

核心性能优化

用户体验提升

创新功能亮点

配置扩展能力

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选