Dolphin 的安装和配置教程

2025-05-22 15:10:12作者：宗隆裙

1. 项目基础介绍

Dolphin 是一个基于深度学习的文档图像解析项目，它遵循“分析后解析”的模式，能够对文档图像中的不同元素进行有效的识别和解析。该项目主要针对文档图像解析中的挑战，如文本段落、图形、公式和表格等复杂交错的元素。Dolphin 通过两个阶段的方法来解决这些问题：第一阶段是页面级别的布局分析，生成自然阅读顺序的元素序列；第二阶段是使用异构锚点和特定任务的提示进行文档元素的并行解析。

项目的主要编程语言是 Python。

2. 项目使用的关键技术和框架

Dolphin 使用了以下关键技术：

深度学习模型：用于图像解析和元素识别。
异构锚点提示：通过不同的锚点提示来优化不同文档元素的解析。
并行解析机制：提高解析效率。

该项目使用的框架主要包括：

PyTorch：用于深度学习模型的开发。
Hugging Face Transformers：用于模型的集成和部署。

3. 项目安装和配置的准备工作

在安装和配置 Dolphin 项目之前，请确保您的计算机已经安装了以下环境和依赖项：

Python 3.6 或更高版本
pip（Python 包管理器）
PyTorch（与您的 CUDA 版本兼容）
git（用于克隆项目）

详细安装步骤

克隆项目仓库到本地：

git clone https://github.com/bytedance/Dolphin.git
cd Dolphin

安装项目依赖：
```
pip install -r requirements.txt
```
下载预训练模型：
- 选项 A：从 Baidu Yun 或 Google Drive 下载原始模型格式，并存放到 ./checkpoints 文件夹。
- 选项 B：从 Hugging Face Hub 下载模型，可以使用以下命令：
```
git lfs install
git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
```
  或者使用 Hugging Face CLI：
```
huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model
```
根据需要运行示例脚本进行页面级别或元素级别的解析。例如，进行页面级别解析的命令如下：
```
python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results
```