12亿参数实现千亿级效能:上海AI Lab发布MinerU2.5,文档解析精度达专家级水平
在大模型参数量竞赛白热化的当下,如何以轻量化架构实现高精度的垂直领域能力,成为行业突破的关键方向。9月29日,上海人工智能实验室正式发布新一代文档解析大模型MinerU2.5,该模型以12亿参数规模,在国际权威评测中全面超越GPT-4o、Gemini2.5-Pro等千亿级通用大模型,以及多款专业OCR工具,重新定义了文档智能解析的技术标准。
权威评测登顶:小模型实现全维度性能碾压
在OmniDocBench、olmOCR-bench等国际主流文档解析评测中,MinerU2.5展现出惊人的性能优势。综合评分上,该模型以92.7的总分超越GPT-4o(89.3)和Gemini2.5-Pro(88.5),在文本识别、公式解析、表格重构等12项细分任务中创下8项世界纪录。尤其值得关注的是,在包含10万份复杂文档的Ocean-OCR评测集上,MinerU2.5实现了98.2%的实体提取准确率,将行业平均水平提升了11.3个百分点。
如上图所示,MinerU2.5在整体性能及文本、公式、表格等核心元素解析维度均位列第一。这种全维度领先地位印证了小参数模型在垂直领域的技术突破,为企业级文档处理提供了兼具精度与效率的新范式。
人工盲测结果进一步验证了技术突破的实际价值。在对1000份包含复杂公式的学术论文、多语言财报和跨格式PPT的解析测试中,30位专业标注员对MinerU2.5的解析结果给出了9.2分(满分10分)的平均评价,与人工标注的一致性达到96.4%,显著高于行业主流工具85.7%的平均水平。
技术架构创新:双引擎驱动解析革命
MinerU2.5的突破性表现源于两大核心技术创新:多模态文档理解引擎与自适应分辨率编码机制。在数据层面,研发团队构建了包含1.2亿份跨领域文档的高质量训练集,覆盖学术论文、财务报表、工程图纸等28类专业文档,通过多阶段清洗机制将数据准确率提升至99.7%。
模型训练阶段采用独创的"困难样本挖掘"策略,通过预训练模型自动识别排版错乱、多语言混合、公式嵌套等复杂样本,结合专家标注构建专项训练集。这种针对性训练使MinerU2.5在旋转表格识别任务中错误率降低72%,在无线框表格提取中F1值达到94.3,较传统方法提升23个百分点。
表格数据清晰展示了MinerU2.5在不同文档类型中的解析优势,特别是在工程图纸和数学论文等复杂场景,其性能领先第二名达15%以上。这为金融、科研等领域的大规模文档处理提供了技术可行性验证。
效率优化方面,MinerU2.5采用创新的混合分辨率处理架构:布局分析阶段使用1036×1036下采样分辨率实现毫秒级处理,内容识别阶段对关键元素启用原生分辨率编码。配合vLLM优化技术,该模型在单张消费级RTX 4090显卡上实现每秒1.7页的解析速度,较同类方案提升3倍以上,使百万级文档处理成本降低60%。
核心能力突破:攻克五大行业痛点
针对企业文档处理中的核心痛点,MinerU2.5实现了五大关键技术突破。在复杂公式解析领域,首创"原子公式分解法",将包含100+符号的超长公式拆解为可独立解析的数学单元,使LaTeX输出准确率从78%提升至95.6%,成功解决了量子物理论文中张量方程解析难题。
表格处理能力实现质的飞跃,通过空间推理网络与语义理解结合的方式,对旋转180度表格、斜线分隔表、跨页表格等特殊形式的识别准确率达到92.3%。在某国有银行的测试中,该模型将财报表格提取错误率从11.2%降至1.8%,每年可减少人工校对工时超12000小时。
多模态内容理解方面,MinerU2.5实现了图片、图表、公式的联合解析。在医学论文场景中,模型能自动识别CT影像标注数据与文字说明的对应关系,为AI辅助诊断系统构建结构化知识库提供关键支撑。测试显示,其多模态元素关联准确率达89.7%,远超行业平均的65%。
文档格式兼容性实现全面覆盖,支持PDF、CAD、Markdown等16种文件格式的直接解析,特别是对扫描件PDF的识别效果达到98.1%的字符准确率。在古籍数字化项目中,该模型成功识别出包含批注、污渍的明清文献,识别准确率较传统OCR工具提升23个百分点。
生态布局与产业价值
MinerU2.5已完成全平台开源部署,开发者可通过HuggingFace、ModelScope及GitCode仓库获取模型权重与推理代码。官方同步上线的Web Demo支持100页以内文档的免费解析,累计处理用户请求已突破50万次,覆盖全球200+科研机构与企业。
企业级解决方案同步发布,包含私有化部署套件与API服务两种形态。其中API服务支持每秒300页的并发处理能力,按次计费模式使单页解析成本低至0.002元。金融、法律、教育等行业的首批客户反馈显示,集成MinerU2.5后,文档处理效率平均提升4倍,错误修正成本降低75%。
国产化适配取得重要进展,MinerU2.5已完成与昇腾910B、寒武纪思元370等国产芯片的深度优化,在千卡级集群上实现90%的算力利用率。通过DeepLink开放计算体系,模型可无缝对接不同厂商的AI加速卡,为政务、能源等关键领域提供自主可控的文档智能处理方案。
应用生态建设成效显著,目前已开发N8n、FastGP等主流Agent平台插件,钉钉、飞书等协作工具的集成版本即将发布。在医疗领域,与某三甲医院合作开发的病历解析系统已进入临床试用阶段,可自动提取诊断结论、用药方案等关键信息,辅助医生病历书写效率提升50%。
未来展望:从文档解析到知识构建
上海AI Lab表示,MinerU2.5只是文档智能理解的起点。团队计划在2026年推出支持3D模型、动态图表解析的MinerU3.0,进一步拓展多模态理解边界。通过与高校共建"文档智能联合实验室",未来将重点攻关跨语言文档理解、历史文献修复等前沿方向。
技术负责人透露,MinerU系列模型已启动商业化落地,目前聚焦金融风控、智能制造、科研情报三大领域。通过开放模型权重与训练代码,团队希望构建"数据-模型-应用"的完整生态,推动文档智能处理技术在千行百业的深度应用,最终实现从信息提取到知识构建的产业升级。
作为新一代文档解析技术的标杆,MinerU2.5不仅展现了小参数模型的巨大潜力,更为AI技术的垂直领域应用提供了可复制的创新路径。在大模型技术从通用能力向专业深度演进的关键阶段,这种"精准打击"式的技术突破,或将成为AI产业价值释放的新引擎。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00