PyTorch Lightning 快速入门指南

2024-08-10 18:01:42作者：庞眉杨Will

pytorch-lightning是一个高性能深度学习框架，专为训练、微调和部署AI模型设计。具备简洁稳定API，支持多GPU与TPU加速，实现轻松扩展。集成4大核心模块：PyTorch Lightning简化代码结构，分离科学与工程；Lightning Fabric提供专家级控制；Lightning Data快速分布式数据流处理；Lightning Apps助您构建AI产品及ML工作流程。利用自动化的硬件适配能力，减少重复劳动，确保实验可复现性，同时保持PyTorch灵活性，适用于专业研究到实际应用的全场景需求。

项目地址：https://gitcode.com/gh_mirrors/pyt/pytorch-lightning

PyTorch Lightning 是一个轻量级的框架，旨在简化PyTorch模型的训练、部署以及扩展到多GPU和TPU环境。它提供了一种组织代码的方式，将科学计算与工程实现解耦，减少了样板代码。

1. 项目目录结构及介绍

典型的PyTorch Lightning项目目录结构可能如下所示：

.
├── config
│   ├── default_config.yaml  # 默认配置文件
├── dataset  # 数据集相关的模块
│   └── custom_dataset.py
├── models  # 模型定义
│   └── lit_model.py  # LightningModule类定义
├── trainers  # 自定义Trainer的配置或逻辑
│   └── custom_trainer.py
├── scripts
│   ├── train.py  # 启动训练脚本
│   └── evaluate.py  # 启动评估脚本
└── utils  # 工具函数
    └── logging.py

config: 存放项目配置文件。
dataset: 定义数据集加载器和预处理逻辑。
models: 包含基于PyTorch Lightning的模型类（LightningModule）。
trainers: 可选，存放自定义Trainer配置或逻辑。
scripts: 主要的执行脚本，如训练和评估。
utils: 公共工具函数和库。

2. 项目的启动文件介绍

train.py

启动训练通常从train.py开始，它包含了运行训练的主要步骤。以下是一个简单的示例：

import argparse
from pytorch_lightning import Trainer
from models.lit_model import LitModel

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--config', type=str, help='Path to configuration file')
    args = parser.parse_args()

    # 加载配置
    config = load_configs(args.config)

    # 创建模型实例
    model = LitModel(config)

    # 初始化并运行训练
    trainer = Trainer.from_argparse_args(args)
    trainer.fit(model)

在这个例子中，train.py解析命令行参数，加载配置文件，然后创建LitModel实例并使用Trainer进行训练。

3. 项目的配置文件介绍

default_config.yaml

配置文件通常以YAML格式存储，用于设置模型和训练过程的参数。例如：

data:
  batch_size: 32
  dataset_class: CustomDataset
  root_path: /path/to/data

model:
  num_layers: 5
  hidden_size: 128

training:
  max_epochs: 10
  gpus: 1
  compute_backend: cpu

这个配置文件定义了数据加载的相关参数（如批大小和数据集类），模型参数（如层数和隐藏层大小），以及训练参数（最大轮数、使用的GPU数量和计算后端类型）。

在train.py中加载配置文件时，可以使用像pyyaml这样的库来解析YAML：

import yaml
from pathlib import Path

def load_configs(config_path):
    with open(Path(config_path), 'r') as f:
        config = yaml.safe_load(f)
    return config