pdf-extract 技术文档

2024-12-26 17:11:27作者：鲍丁臣Ursa

1. 安装指南

1.1 环境要求

在安装 pdf-extract 之前，请确保您的系统已安装 Ruby 1.9.1 或更高版本。

1.2 安装步骤

您可以通过以下命令安装 pdf-extract 的最新版本：

$ gem install pdf-extract

安装完成后，您可以通过命令行使用 pdf-extract 工具。

2. 项目的使用说明

2.1 提取参考文献

要从 PDF 文件中提取参考文献，可以使用以下命令：

$ pdf-extract extract --references myfile.pdf

2.2 提取参考文献和标题

如果您希望同时提取参考文献和标题，可以使用以下命令：

$ pdf-extract extract --references --titles myfile.pdf

2.3 标记页眉、页脚和列

您可以在新的 PDF 文件中标记页眉、页脚和列的位置，使用以下命令：

$ pdf-extract mark --columns --headers --footers myfile.pdf

2.4 提取文本区域并保留行信息

要从 PDF 文件中提取文本区域并保留行信息（即行相对于区域原点的偏移量），可以使用以下命令：

$ pdf-extract extract --regions myfile.pdf

2.5 提取文本区域但不保留行信息

如果您希望提取文本区域但不保留行信息（输出更美观且易于阅读），可以使用以下命令：

$ pdf-extract extract --regions --no-lines myfile.pdf

2.6 解析参考文献并输出 BibTeX 格式的元数据

要解析参考文献并输出相关的 BibTeX 格式元数据，可以使用以下命令：

$ pdf-extract extract-bib --resolved_references myfile.pdf

3. 项目 API 使用文档

3.1 设置参数

pdf-extract 提供了多种参数设置，您可以通过以下命令查看所有可用的设置及其描述：

$ pdf-extract settings

您可以通过 --set key:value 参数来设置这些选项。例如，调整 reference_flex 参数：

$ pdf-extract extract --references --set reference_flex:0.18 myfile.pdf

3.2 常见问题及解决方案

3.2.1 提取的参考文献中包含非参考文献内容

如果 pdf-extract 将普通文本误识别为参考文献，可以尝试减小 reference_flex 参数的值：

$ pdf-extract extract --references --set reference_flex:0.18 myfile.pdf

默认的 reference_flex 值为 0.2，建议每次减小 0.02。

3.2.2 无法提取任何参考文献

如果 pdf-extract 无法提取任何参考文献，可以尝试增大 reference_flex 参数的值：

$ pdf-extract extract --references --set reference_flex:0.25 myfile.pdf

建议每次增加 0.02，直到成功提取参考文献。注意，reference_flex 值为 1 时，pdf-extract 会将所有部分识别为参考文献。

3.2.3 调整参数后输出仍然异常

如果调整 reference_flex 后输出仍然异常，建议查看所有可用设置，并根据需要调整其他参数。

4. 项目安装方式

4.1 通过 RubyGems 安装

pdf-extract 可以通过 RubyGems 进行安装，使用以下命令：

$ gem install pdf-extract

4.2 验证安装

安装完成后，您可以通过以下命令验证 pdf-extract 是否安装成功：

$ pdf-extract --version

如果成功安装，将显示当前 pdf-extract 的版本号。

通过本文档，您应该能够顺利安装并使用 pdf-extract 工具，提取 PDF 文件中的参考文献、标题、文本区域等信息。如果在使用过程中遇到问题，请参考常见问题及解决方案部分进行调整。

pdfextract

MOVED TO https://gitlab.com/crossref/pdfextract

项目地址：https://gitcode.com/gh_mirrors/pd/pdfextract

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

440

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1 K

610

pdf-extract 技术文档

1. 安装指南

1.1 环境要求

1.2 安装步骤

2. 项目的使用说明

2.1 提取参考文献

2.2 提取参考文献和标题

2.3 标记页眉、页脚和列

2.4 提取文本区域并保留行信息

2.5 提取文本区域但不保留行信息

2.6 解析参考文献并输出 BibTeX 格式的元数据

3. 项目 API 使用文档

3.1 设置参数

3.2 常见问题及解决方案

3.2.1 提取的参考文献中包含非参考文献内容

3.2.2 无法提取任何参考文献

3.2.3 调整参数后输出仍然异常

4. 项目安装方式

4.1 通过 RubyGems 安装

4.2 验证安装

热门内容推荐

最新内容推荐

项目优选

pdf-extract 技术文档

1. 安装指南

1.1 环境要求

1.2 安装步骤

2. 项目的使用说明

2.1 提取参考文献

2.2 提取参考文献和标题

2.3 标记页眉、页脚和列

2.4 提取文本区域并保留行信息

2.5 提取文本区域但不保留行信息

2.6 解析参考文献并输出 BibTeX 格式的元数据

3. 项目 API 使用文档

3.1 设置参数

3.2 常见问题及解决方案

3.2.1 提取的参考文献中包含非参考文献内容

3.2.2 无法提取任何参考文献

3.2.3 调整参数后输出仍然异常

4. 项目安装方式

4.1 通过 RubyGems 安装

4.2 验证安装

相关内容推荐

热门内容推荐

最新内容推荐

项目优选