首页
/ Marker项目v1.7.0版本发布:全新OCR模型与结构化数据提取功能

Marker项目v1.7.0版本发布:全新OCR模型与结构化数据提取功能

2025-06-01 06:22:22作者:戚魁泉Nursing

Marker是一个专注于文档处理的开源项目,它能够将各种格式的文档(如PDF、图片等)转换为结构化的文本数据,并支持数学公式识别、表格提取等高级功能。该项目通过结合深度学习模型和传统文档处理技术,为研究人员和开发者提供了强大的文档解析工具。

全新OCR模型Surya OCR 3

本次发布的v1.7.0版本带来了重大更新,其中最引人注目的是全新的Surya OCR 3模型。这个第三代OCR引擎在多个方面实现了显著提升:

  1. 数学公式识别增强:特别增加了对行内数学公式(inline math)的支持,通过--format_lines选项可以正确识别文档中的行内数学表达式。从初步测试来看,其数学公式识别准确率可能是当前最佳水平。

  2. 性能优化:新版模型在GPU上的运行速度更快,同时保持了更高的识别准确率。这对于需要处理大量文档的用户来说意味着更高效的工作流程。

  3. 格式保持:改进的文本布局分析能力可以更好地保留原始文档的结构和格式。

结构化数据提取功能(Beta版)

v1.7.0引入了结构化数据提取的早期版本,这是一个突破性的功能:

  1. 基于Pydantic的模式定义:用户可以通过定义Pydantic模型来指定需要提取的数据结构。系统会根据这个模式自动从文档中提取匹配的内容。

  2. LLM集成:该功能需要配置LLM(大语言模型)服务,利用其强大的语义理解能力来提高提取准确率。

  3. 可视化工具:配套提供了一个基于Streamlit的GUI应用marker_extract,让非技术用户也能方便地使用这一功能。

示例代码展示了如何定义一个简单的链接提取器:

from marker.converters.extraction import ExtractionConverter
from marker.models import create_model_dict
from marker.config.parser import ConfigParser
from pydantic import BaseModel

class Links(BaseModel):
    links: list[str]
    
schema = Links.model_json_schema()
config_parser = ConfigParser({
    "page_schema": schema
})

converter = ExtractionConverter(
    artifact_dict=create_model_dict(),
    config=config_parser.generate_config_dict(),
    llm_service=config_parser.get_llm_service(),
)
rendered = converter("FILEPATH")

OCR转换器独立化

新版本将OCR功能独立为一个专门的转换器类OCRConverter,这使得OCR处理更加模块化和灵活。这个转换器特别优化了对块级数学公式的处理能力,开发者现在可以更精确地控制OCR过程。

其他改进

  1. 输入灵活性增强PDFconverter现在支持直接接收io.BytesIO对象,而不仅仅是文件路径,这为内存中的文档处理提供了便利。

  2. 文本块合并优化:修复了一些在合并文本块时出现的罕见错误,提高了文档结构解析的稳定性。

  3. 性能优化:整体性能有所提升,特别是在处理复杂布局文档时的表现。

技术展望

Marker项目通过这次更新,在文档智能处理领域又迈进了一步。特别是结构化提取功能的引入,为从非结构化文档中获取语义信息开辟了新途径。随着OCR模型的持续优化,Marker在处理学术论文、技术文档等包含复杂内容类型的场景中将更具优势。

对于开发者而言,这些新功能提供了更丰富的接口和更高的处理精度;对于终端用户,则意味着更准确、更高效的文档转换体验。随着项目的持续发展,Marker有望成为文档处理领域的重要工具之一。

登录后查看全文
热门项目推荐
相关项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
262
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
863
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K