【亲测免费】 PubLayNet 开源项目教程
2026-01-23 04:17:08作者:俞予舒Fleming
1. 项目介绍
PubLayNet 是一个大型文档图像数据集,其布局使用边界框和多边形分割进行注释。文档的来源是 PubMed Central Open Access Subset(商业用途集合)。注释是通过匹配 PubMed Central Open Access Subset 中的 PDF 格式和 XML 格式自动生成的。更多详细信息可以在我们的论文 "PubLayNet: largest dataset ever for document layout analysis" 中找到。
2. 项目快速启动
2.1 下载数据集
你可以通过以下命令下载 PubLayNet 数据集:
curl -o <YOUR_TARGET_DIR>/publaynet.tar.gz https://dax-cdn.cdn.appdomain.cloud/dax-publaynet/1.0.0/publaynet.tar.gz
或者使用 wget:
wget -O <YOUR_TARGET_DIR>/publaynet.tar.gz https://dax-cdn.cdn.appdomain.cloud/dax-publaynet/1.0.0/publaynet.tar.gz
2.2 解压数据集
下载完成后,解压数据集:
tar -xzf <YOUR_TARGET_DIR>/publaynet.tar.gz -C <YOUR_TARGET_DIR>
2.3 查看数据集
解压后,你可以在 <YOUR_TARGET_DIR> 目录下找到数据集文件。数据集包含训练集和测试集的图像和注释文件。
3. 应用案例和最佳实践
3.1 文档布局分析
PubLayNet 数据集可以用于训练和评估文档布局分析模型。例如,可以使用 Faster-RCNN 或 Mask-RCNN 模型来检测文档中的不同布局元素(如标题、段落、表格等)。
3.2 科学文献解析
PubLayNet 数据集还被用于 ICDAR 2021 科学文献解析竞赛。参赛者可以使用该数据集来训练和评估他们的模型,以自动解析科学文献中的布局信息。
4. 典型生态项目
4.1 PubTabNet
PubTabNet 是一个用于基于图像的表格识别的大型数据集,包含超过 568,000 张表格图像,并带有相应的 HTML 表示。表格区域是使用生成 PubLayNet 的相同算法识别的。
4.2 ICDAR 2021 科学文献解析竞赛
ICDAR 2021 科学文献解析竞赛使用了 PubLayNet 数据集,参赛者需要开发模型来自动解析科学文献中的布局信息。
通过以上步骤,你可以快速上手使用 PubLayNet 数据集,并了解其在文档布局分析和科学文献解析中的应用。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0148- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0111
项目优选
收起
暂无描述
Dockerfile
731
4.73 K
Ascend Extension for PyTorch
Python
609
786
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1 K
1.01 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
433
392
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
145
237
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.15 K
148
暂无简介
Dart
983
250
Oohos_react_native
React Native鸿蒙化仓库
C++
347
401
昇腾LLM分布式训练框架
Python
166
197
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.67 K
985