【亲测免费】 PDF Craft 使用教程
2026-01-30 04:19:34作者:冯梦姬Eddie
1. 项目介绍
PDF Craft 是一个开源项目,旨在将 PDF 文件转换为其他格式,特别是针对扫描书籍的 PDF 文件。该项目利用 DocLayout-YOLO、OnnxOCR 和 layoutreader 等本地可执行的 AI 模型,可以将 PDF 文件转换为 Markdown 或 EPUB 格式。Markdown 格式适合于论文或小型书籍,而 EPUB 格式则更适合解析超过 100 页的书籍。
2. 项目快速启动
环境准备
- Python 3.10 或更高版本(推荐 3.10.16)
- 安装必要的 Python 包
pip install pdf-craft
pip install onnxruntime==1.21.0
如果需要使用 GPU 加速,请确保设备支持 CUDA 环境,并安装相应的 onnxruntime-gpu 包。
转换 PDF 为 Markdown
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(
device="cpu", # 如果使用 GPU,请修改为 device="cuda:0"
model_dir_path="/path/to/model/dir/path" # AI 模型下载和安装的文件夹地址
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/file"):
md.write(block)
执行完成后,会在指定路径生成一个 *.md 文件。如果原始 PDF 中包含插图(或表格、公式),将在 *.md 文件同级创建一个 assets 目录来保存图片。
转换 PDF 为 EPUB
首先,创建一个 PDFPageExtractor 对象。
from pdf_craft import PDFPageExtractor
extractor = PDFPageExtractor(
device="cpu", # 如果使用 GPU,请修改为 device="cuda:0"
model_dir_path="/path/to/model/dir/path" # AI 模型下载和安装的文件夹地址
)
接着,配置 LLM 对象。这里推荐使用 DeepSeek。
from pdf_craft import LLM
llm = LLM(
key="sk-XXXXX", # 由 LLM 提供商提供的 key
url="https://api.deepseek.com", # 由 LLM 提供商提供的 URL
model="deepseek-chat", # 由 LLM 提供商提供的模型
token_encoding="o200k_base" # 用于标记估计的本地模型名称(与 LLM 无关,如果不关心,保持 "o200k_base")
)
然后,开始扫描和分析 PDF 书籍。
from pdf_craft import analyse
analyse(
llm=llm,
pdf_page_extractor=extractor,
pdf_path="/path/to/pdf/file",
analysing_dir_path="/path/to/analysing/dir",
output_dir_path="/path/to/output/files"
)
最后,使用分析结果生成 EPUB 文件。
from pdf_craft import generate_epub_file
generate_epub_file(
from_dir_path=output_dir_path,
epub_file_path="/path/to/output/epub"
)
3. 应用案例和最佳实践
- 案例一:将扫描的书籍从 PDF 转换为 EPUB 格式,便于在电子设备上阅读。
- 案例二:将 PDF 格式的学术文章转换为 Markdown 格式,便于在 GitHub 上分享和讨论。
最佳实践:
- 在处理大量书籍时,建议使用 GPU 加速以提高处理速度。
- 对于扫描质量较差的 PDF 文件,可以通过多次 OCR 识别来提高识别质量。
4. 典型生态项目
目前 PDF Craft 项目的生态还处于起步阶段,但以下是一些可能的生态项目方向:
- 开发 Web 界面,使非技术用户也能轻松转换 PDF 文件。
- 为项目添加更多的输出格式,如 Word、HTML 等。
- 创建一个在线服务,允许用户上传 PDF 文件并获取转换结果。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0191
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0117
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
omega-aiOmega-AI:基于java打造的深度学习框架,帮助你快速搭建神经网络,实现模型推理与训练,引擎支持自动求导,多线程与GPU运算,GPU支持CUDA,CUDNN。Java04
llm-universe本项目是一个面向小白开发者的大模型应用开发教程,在线阅读地址:https://datawhalechina.github.io/llm-universe/Jupyter Notebook08
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
764
4.97 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
857
1.92 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
678
1.33 K
Ascend Extension for PyTorch
Python
719
876
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
455
437
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.08 K
1.09 K
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
150
252
CANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。
Jupyter Notebook
302
117
昇腾LLM分布式训练框架
Python
178
220