PFL-Non-IID项目中Cifar100数据集训练准确率问题分析

2025-07-09 05:26:45作者：廉皓灿Ida

探索个性化联邦学习的新境界！PFLlib是一个用户友好的算法库，专为联邦学习新手设计。它包含36种传统和个性化FL算法，适用于3种场景和20个数据集，轻松应对统计异质性挑战。在单个GPU上模拟大规模场景，同时关注隐私保护和资源效率。参与进来，贡献你的算法、数据和指标，共同拓展FL社区边界。立即加入我们，开启您的FL旅程！

项目地址：https://gitcode.com/gh_mirrors/pf/PFL-Non-IID

问题背景

在使用PFL-Non-IID项目进行联邦学习实验时，研究人员发现了一个值得关注的现象：当使用resnet18模型在Cifar100数据集上进行训练时，即使将客户端数量设置为1（即模拟集中式训练场景），采用FedAvg或Local算法得到的测试准确率也难以超过50%，有时甚至低于40%。这与直接使用原始Cifar100数据集进行集中式训练时能达到65%左右的准确率形成了鲜明对比。

问题分析

数据集划分差异

经过深入分析，发现问题的根源在于数据集的划分方式存在显著差异：

原始数据集划分：Cifar100原始数据集中，训练集与测试集的比例为5:1，这意味着有更多的数据可用于模型训练。
项目默认划分：PFL-Non-IID项目中默认将训练集和测试集混合后重新划分为3:1的比例。这种划分方式导致：
- 训练数据量相对减少
- 测试数据量相对增加
- 整体数据分布可能发生变化

训练数据量的重要性

在机器学习领域，训练数据量对模型性能有着决定性影响。当训练数据量减少时，模型更容易出现过拟合现象，表现为：

训练准确率较高但测试准确率较低
模型泛化能力下降
难以学习到数据中的普遍规律

项目设计理念

值得注意的是，PFL-Non-IID项目的设计遵循了特定的理念：

尽可能不进行超参数调优
在各种任务上尽量使用同一套超参数
保持实验条件的一致性以便于算法比较

这种设计理念虽然有利于算法评估的公平性，但在特定数据集上可能无法获得最优性能。

解决方案建议

对于希望在PFL-Non-IID框架下进行集中式训练对比实验的研究人员，建议采取以下措施：

修改数据划分比例：调整代码中的数据集划分逻辑，使其与原始数据集的5:1比例保持一致。
保持数据分布一致性：确保训练集和测试集的分布特征与原始数据集相同。
谨慎调整超参数：虽然项目提倡不调参，但在特定研究需求下可以适当调整学习率、批量大小等参数。
验证数据预处理流程：检查数据增强等预处理步骤是否与集中式训练设置一致。

总结

这个案例提醒我们，在进行联邦学习与集中式学习的对比实验时，必须严格控制实验条件的一致性，特别是数据集的划分方式和数据量。PFL-Non-IID项目的设计更侧重于算法间的公平比较，而非追求每个数据集上的最优性能。研究人员应根据具体需求灵活调整实验设置，同时理解框架设计背后的理念和限制。

探索个性化联邦学习的新境界！PFLlib是一个用户友好的算法库，专为联邦学习新手设计。它包含36种传统和个性化FL算法，适用于3种场景和20个数据集，轻松应对统计异质性挑战。在单个GPU上模拟大规模场景，同时关注隐私保护和资源效率。参与进来，贡献你的算法、数据和指标，共同拓展FL社区边界。立即加入我们，开启您的FL旅程！

项目地址：https://gitcode.com/gh_mirrors/pf/PFL-Non-IID

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。