Marker项目v1.7.0版本发布：全新OCR模型与结构化数据提取功能

2025-06-01 06:22:22作者：戚魁泉Nursing

一个高效、准确的工具，能够将 PDF 和图像快速转换为 Markdown、JSON 和 HTML 格式，支持多语言和复杂布局处理，可选集成 LLM 提升精度，适用于学术文档、表格提取等多种场景。源项目地址：https://github.com/VikParuchuri/marker

项目地址：https://gitcode.com/GitHub_Trending/ma/marker

Marker是一个专注于文档处理的开源项目，它能够将各种格式的文档（如PDF、图片等）转换为结构化的文本数据，并支持数学公式识别、表格提取等高级功能。该项目通过结合深度学习模型和传统文档处理技术，为研究人员和开发者提供了强大的文档解析工具。

全新OCR模型Surya OCR 3

本次发布的v1.7.0版本带来了重大更新，其中最引人注目的是全新的Surya OCR 3模型。这个第三代OCR引擎在多个方面实现了显著提升：

数学公式识别增强：特别增加了对行内数学公式(inline math)的支持，通过--format_lines选项可以正确识别文档中的行内数学表达式。从初步测试来看，其数学公式识别准确率可能是当前最佳水平。
性能优化：新版模型在GPU上的运行速度更快，同时保持了更高的识别准确率。这对于需要处理大量文档的用户来说意味着更高效的工作流程。
格式保持：改进的文本布局分析能力可以更好地保留原始文档的结构和格式。

结构化数据提取功能（Beta版）

v1.7.0引入了结构化数据提取的早期版本，这是一个突破性的功能：

基于Pydantic的模式定义：用户可以通过定义Pydantic模型来指定需要提取的数据结构。系统会根据这个模式自动从文档中提取匹配的内容。
LLM集成：该功能需要配置LLM（大语言模型）服务，利用其强大的语义理解能力来提高提取准确率。
可视化工具：配套提供了一个基于Streamlit的GUI应用marker_extract，让非技术用户也能方便地使用这一功能。

示例代码展示了如何定义一个简单的链接提取器：

from marker.converters.extraction import ExtractionConverter
from marker.models import create_model_dict
from marker.config.parser import ConfigParser
from pydantic import BaseModel

class Links(BaseModel):
    links: list[str]
    
schema = Links.model_json_schema()
config_parser = ConfigParser({
    "page_schema": schema
})

converter = ExtractionConverter(
    artifact_dict=create_model_dict(),
    config=config_parser.generate_config_dict(),
    llm_service=config_parser.get_llm_service(),
)
rendered = converter("FILEPATH")

OCR转换器独立化

新版本将OCR功能独立为一个专门的转换器类OCRConverter，这使得OCR处理更加模块化和灵活。这个转换器特别优化了对块级数学公式的处理能力，开发者现在可以更精确地控制OCR过程。

其他改进

输入灵活性增强：PDFconverter现在支持直接接收io.BytesIO对象，而不仅仅是文件路径，这为内存中的文档处理提供了便利。
文本块合并优化：修复了一些在合并文本块时出现的罕见错误，提高了文档结构解析的稳定性。
性能优化：整体性能有所提升，特别是在处理复杂布局文档时的表现。

技术展望

Marker项目通过这次更新，在文档智能处理领域又迈进了一步。特别是结构化提取功能的引入，为从非结构化文档中获取语义信息开辟了新途径。随着OCR模型的持续优化，Marker在处理学术论文、技术文档等包含复杂内容类型的场景中将更具优势。

对于开发者而言，这些新功能提供了更丰富的接口和更高的处理精度；对于终端用户，则意味着更准确、更高效的文档转换体验。随着项目的持续发展，Marker有望成为文档处理领域的重要工具之一。

一个高效、准确的工具，能够将 PDF 和图像快速转换为 Markdown、JSON 和 HTML 格式，支持多语言和复杂布局处理，可选集成 LLM 提升精度，适用于学术文档、表格提取等多种场景。源项目地址：https://github.com/VikParuchuri/marker

项目地址：https://gitcode.com/GitHub_Trending/ma/marker

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ShopXO开源商城

🔥🔥🔥ShopXO企业级免费开源商城系统，可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存，遵循MIT开源协议发布、基于ThinkPHP8框架研发

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

deepin linux kernel

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

HarmonyOS-Examples

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。