PDFFigures 2 项目使用教程

2025-04-15 11:24:01作者：鲍丁臣Ursa

Given a scholarly PDF, extract figures, tables, captions, and section titles.

项目地址：https://gitcode.com/gh_mirrors/pd/pdffigures2

1. 项目目录结构及介绍

PDFFigures 2 是一个基于 Scala 语言的开源项目，用于从学术 PDF 文档中提取图像、表格、标题和章节标题。项目的主要目录结构如下：

pdffigures2/
├── build.sbt         # Scala 构建配置文件
├── src/
│   ├── main/
│   │   ├── java/    # Java 源代码目录
│   │   ├── scala/   # Scala 源代码目录
│   │   └── resources/  # 资源文件目录
│   └── test/
│       ├── java/    # 测试 Java 源代码目录
│       └── scala/   # 测试 Scala 源代码目录
├── target/           # 构建目标目录
├── project/          # 项目支持文件目录
├── .gitignore        # Git 忽略文件
├── README.md         # 项目说明文件
└── LICENSE.txt       # 项目许可证文件

build.sbt：Scala 构建工具 sbt 的配置文件，用于管理项目的依赖、编译和打包等构建过程。
src/main/java：存放 Java 源代码，Scala 项目中可能包含 Java 代码。
src/main/scala：存放 Scala 源代码，是项目的主要逻辑实现部分。
src/main/resources：存放项目资源文件，如配置文件、图像资源等。
src/test/java 和 src/test/scala：存放单元测试相关的 Java 和 Scala 源代码。
target：构建过程中产生的文件存放目录，包括编译后的 class 文件、文档等。
project：存放项目支持文件，如自定义的 sbt 插件等。
.gitignore：定义 Git 版本控制忽略的文件和目录。
README.md：Markdown 格式的项目说明文件，通常包含项目介绍、安装和使用指南。
LICENSE.txt：项目的开源许可证文件，PDFFigures 2 使用 Apache-2.0 许可证。

2. 项目的启动文件介绍

项目的启动主要通过 sbt 来进行。在项目根目录下，可以通过以下命令启动 sbt：

sbt

启动 sbt 后，可以使用以下命令来运行项目：

对于单个 PDF 文件进行图像提取和预览：

runMain org.allenai.pdffigures2.FigureExtractorVisualizationCli /path/to/pdf

对于单个 PDF 文件进行图像提取，并获取解析可视化：

runMain org.allenai.pdffigures2.FigureExtractorVisualizationCli /path/to/pdf -r

对于单个 PDF 文件进行图像提取，并获取所有中间步骤的可视化：
```
runMain org.allenai.pdffigures2.FigureExtractorVisualizationCli /path/to/pdf -s
```

对于多个 PDF 文件批量提取图像，并保存相关数据：

runMain org.allenai.pdffigures2.FigureExtractorBatchCli /path/to/pdf_directory/ -s stat_file.json -m /figure/image/output/prefix -d /figure/data/output/prefix

3. 项目的配置文件介绍

PDFFigures 2 的配置主要通过 build.sbt 文件进行。以下是一些常见的配置选项：

name: 设置项目的名称。
version: 设置项目的版本号。
scalaVersion: 设置项目使用的 Scala 版本。
libraryDependencies: 添加项目依赖的库。

例如：

name := "pdffigures2"

version := "1.0"

scalaVersion := "2.13.3"

libraryDependencies ++= Seq(
  "org.apache.pdfbox" % "pdfbox" % "2.0.24",
  "org.scalatest" %% "scalatest" % "3.2.2" % Test
)

此外，项目可能需要额外的图像格式处理库，可以在 build.sbt 中添加如下依赖（注意，这些依赖可能因为许可证原因没有默认包含）：

"com.github.jai-imageio" % "jai-imageio-core" % "1.2.1",
"com.github.jai-imageio" % "jai-imageio-jpeg2000" % "1.3.0", // 处理 jpeg2000 图像
"com.levigo.jbig2" % "levigo-jbig2-imageio" % "1.6.5" // 处理 jbig2 图像

以上就是 PDFFigures 2 的使用教程，希望对您有所帮助。

Given a scholarly PDF, extract figures, tables, captions, and section titles.

项目地址：https://gitcode.com/gh_mirrors/pd/pdffigures2

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库