【亲测免费】开源项目spatie/pdf-to-text常见问题解决方案

2026-01-29 12:43:19作者：范靓好Udolf

项目基础介绍

spatie/pdf-to-text 是一个用于从PDF文件中提取文本的PHP包。该项目利用了 pdftotext 命令行工具，通过PHP代码调用该工具来实现PDF文本的提取。该项目的主要编程语言是PHP。

问题描述：在使用 spatie/pdf-to-text 时，可能会遇到 pdftotext 命令未安装或路径配置错误的问题，导致无法正常提取PDF文本。

解决步骤：

检查 pdftotext 是否安装：在终端或命令行中输入以下命令：
```
which pdftotext
```
如果返回路径，则表示已安装；否则需要安装。

安装 pdftotext：

配置 pdftotext 路径：如果 pdftotext 安装在非默认路径，可以在代码中指定路径：
```
$text = (new Pdf('/custom/path/to/pdftotext'))
    ->setPdf('book.pdf')
    ->text();
```

问题描述：在调用 Pdf::getText('book.pdf') 时，如果传入的PDF文件路径错误或文件不存在，会导致提取失败。

解决步骤：

检查文件路径：确保传入的文件路径是正确的，并且文件存在。可以使用以下代码检查文件是否存在：
```
if (file_exists('book.pdf')) {
    echo Pdf::getText('book.pdf');
} else {
    echo "文件不存在";
}
```

使用绝对路径：如果文件路径是相对路径，建议使用绝对路径以避免路径错误：

$filePath = realpath('book.pdf');
if (file_exists($filePath)) {
    echo Pdf::getText($filePath);
} else {
    echo "文件不存在";
}

问题描述：在提取某些PDF文件时，可能会出现乱码或文本格式错误的情况。

解决步骤：

使用 pdftotext 选项：可以通过设置 pdftotext 的选项来调整提取文本的格式。例如，使用 layout 选项来保持文本的原始布局：
```
$text = (new Pdf())
    ->setPdf('table.pdf')
    ->setOptions(['layout'])
    ->text();
```
检查PDF文件编码：某些PDF文件可能使用了特殊的字体或编码，导致提取的文本出现乱码。可以尝试使用其他PDF阅读器打开文件，确认文本是否正常显示。
更新 pdftotext 版本：如果问题依然存在，可以尝试更新 pdftotext 到最新版本，以获得更好的兼容性和支持。