开源项目安装与配置指南：基于图的文本生成

2025-04-18 22:20:19作者：彭桢灵Jeremy

1. 项目基础介绍

本项目名为“Investigating Pretrained Language Models for Graph-to-Text Generation”，是由UKPLab团队开发的一个开源项目。该项目主要研究并应用预训练语言模型在图到文本生成任务中的性能。项目使用Python作为主要的编程语言，结合其他辅助语言如Perl、Emacs Lisp、Shell等。

2. 项目使用的关键技术和框架

预训练语言模型：项目使用BART和T5两种基于Transformer架构的预训练语言模型。
HuggingFace：项目采用HuggingFace的Transformers库，该库提供了对预训练模型的轻松加载和微调。
PyTorch Lightning：用于简化PyTorch的代码，使得模型训练更加高效。

3. 项目安装和配置的准备工作与详细步骤

准备工作

确保你的系统安装了Python 3.6版本。
安装必要的依赖库，包括transformers、pytorch-lightning、torch、parsimonious等。

安装步骤

克隆项目仓库：

git clone https://github.com/UKPLab/plms-graph2text.git
cd plms-graph2text

安装Python依赖：

pip install -r requirements.txt

如果requirements.txt文件不存在，则需要手动安装以下库：

pip install transformers pytorch-lightning torch parsimonious

下载并解压所需的 datasets（AMR17、WebNLG和AGENDA），放置在相应目录下。
对数据集进行预处理。以AMR17数据集为例：
```
./preprocess_AMR.sh <dataset_folder>
```
其中<dataset_folder>应替换为你的数据集文件夹路径。
微调模型。以使用t5-small模型微调AMR17数据集为例：
```
./finetune_AMR.sh t5-small <gpu_id>
```
其中<gpu_id>应替换为你的GPU编号，如果你使用CPU，则可以省略<gpu_id>。
模型训练完成后，进行解码测试。以AMR17数据集为例：
```
./decode_AMR.sh t5-small <checkpoint> <gpu_id>
```
其中<checkpoint>是训练好的模型检查点文件路径。