PFL-Non-IID 开源项目教程

2024-08-10 11:07:01作者：宣海椒Queenly

探索个性化联邦学习的新境界！PFLlib是一个用户友好的算法库，专为联邦学习新手设计。它包含36种传统和个性化FL算法，适用于3种场景和20个数据集，轻松应对统计异质性挑战。在单个GPU上模拟大规模场景，同时关注隐私保护和资源效率。参与进来，贡献你的算法、数据和指标，共同拓展FL社区边界。立即加入我们，开启您的FL旅程！

项目地址：https://gitcode.com/gh_mirrors/pf/PFL-Non-IID

本教程将引导您了解 PFL-Non-IID 项目，这是一个专注于处理非独立同分布（Non-IID）数据的个性化联邦学习（Personalized Federated Learning）框架。以下是项目的三个核心部分：

1. 目录结构及介绍

PFL-Non-IID/
├── datasets/      // 存放数据集生成脚本
│   ├── generate_tiny_imagenet.py
├── models/        // 包含不同模型定义
├── trainers/      // 训练脚本
│   ├── fedavg.py
│   ├── fedprox.py
└── config.yaml    // 主配置文件

datasets: 包含用于生成模拟Non-IID数据集的Python脚本。
models: 各种模型实现，可以是用于示例的简单模型或复杂网络架构。
trainers: 不同的训练策略，如FedAvg和FedProx等，可在此找到对应的Python实现。
config.yaml: 项目的主要配置文件，用来设置训练参数。

2. 项目的启动文件介绍

在 PFL-Non-IID 中，训练通常通过调用 trainers 文件夹中的脚本来启动。例如，如果你想使用FedAvg算法进行训练，你可以运行以下命令：

python trainers/fedavg.py --config config.yaml

trainers/fedavg.py 是一个典型的训练脚本，它会加载配置文件（config.yaml），初始化模型、数据和训练参数，然后执行多轮的通信和更新过程。

3. 项目的配置文件介绍

config.yaml 配置文件包含了项目的核心设置，例如：

data:
  dataset: mnist     # 使用的数据集（可以是mnist, cifar10, 等）
  n_clients: 10     # 客户端数量
  client_ratio: 0.1 # 每轮参与训练的客户端比例
  non_iid_type: dir # 非IID类型（dir, noise 或 balance）

model:
  name: cnn         # 模型名称（对应models文件夹下的模型）
  epochs: 10       # 每个客户端上的本地训练epoch数

optimizer:
  name: sgd        # 优化器（支持sgd, adam等）
  lr: 0.01         # 学习率

training:
  communication_rounds: 100    # 联邦学习的总轮数
  server_lr: 0.1               # 服务器端的学习率（用于FedProx等方法）
  use_fedprox: false           # 是否启用FedProx正则化