12亿参数实现千亿级效能：上海AI Lab发布MinerU2.5，文档解析精度达专家级水平

2026-02-06 04:42:17作者：贡沫苏Truman

在大模型参数量竞赛白热化的当下，如何以轻量化架构实现高精度的垂直领域能力，成为行业突破的关键方向。9月29日，上海人工智能实验室正式发布新一代文档解析大模型MinerU2.5，该模型以12亿参数规模，在国际权威评测中全面超越GPT-4o、Gemini2.5-Pro等千亿级通用大模型，以及多款专业OCR工具，重新定义了文档智能解析的技术标准。

权威评测登顶：小模型实现全维度性能碾压

在OmniDocBench、olmOCR-bench等国际主流文档解析评测中，MinerU2.5展现出惊人的性能优势。综合评分上，该模型以92.7的总分超越GPT-4o（89.3）和Gemini2.5-Pro（88.5），在文本识别、公式解析、表格重构等12项细分任务中创下8项世界纪录。尤其值得关注的是，在包含10万份复杂文档的Ocean-OCR评测集上，MinerU2.5实现了98.2%的实体提取准确率，将行业平均水平提升了11.3个百分点。

如上图所示，MinerU2.5在整体性能及文本、公式、表格等核心元素解析维度均位列第一。这种全维度领先地位印证了小参数模型在垂直领域的技术突破，为企业级文档处理提供了兼具精度与效率的新范式。

人工盲测结果进一步验证了技术突破的实际价值。在对1000份包含复杂公式的学术论文、多语言财报和跨格式PPT的解析测试中，30位专业标注员对MinerU2.5的解析结果给出了9.2分（满分10分）的平均评价，与人工标注的一致性达到96.4%，显著高于行业主流工具85.7%的平均水平。

技术架构创新：双引擎驱动解析革命

MinerU2.5的突破性表现源于两大核心技术创新：多模态文档理解引擎与自适应分辨率编码机制。在数据层面，研发团队构建了包含1.2亿份跨领域文档的高质量训练集，覆盖学术论文、财务报表、工程图纸等28类专业文档，通过多阶段清洗机制将数据准确率提升至99.7%。

模型训练阶段采用独创的"困难样本挖掘"策略，通过预训练模型自动识别排版错乱、多语言混合、公式嵌套等复杂样本，结合专家标注构建专项训练集。这种针对性训练使MinerU2.5在旋转表格识别任务中错误率降低72%，在无线框表格提取中F1值达到94.3，较传统方法提升23个百分点。

表格数据清晰展示了MinerU2.5在不同文档类型中的解析优势，特别是在工程图纸和数学论文等复杂场景，其性能领先第二名达15%以上。这为金融、科研等领域的大规模文档处理提供了技术可行性验证。

效率优化方面，MinerU2.5采用创新的混合分辨率处理架构：布局分析阶段使用1036×1036下采样分辨率实现毫秒级处理，内容识别阶段对关键元素启用原生分辨率编码。配合vLLM优化技术，该模型在单张消费级RTX 4090显卡上实现每秒1.7页的解析速度，较同类方案提升3倍以上，使百万级文档处理成本降低60%。