分布式机器学习区块链平台：Biscotti 安装与使用指南

2024-09-28 20:41:28作者：齐添朝

项目概述

Biscotti 是一个致力于实现私密且安全的对等机器学习(Peer-to-Peer ML)的分布式系统。通过利用区块链技术进行节点间的协调，并结合差分隐私和密码学方法保障数据隐私与安全，它允许参与者在不牺牲数据隐私的情况下共同训练模型。

目录结构及介绍

Biscotti 的仓库组织如下：

.
├── azure-deploy         # Azure 部署相关脚本与配置
├── azure                 # Azure 相关工具或配置
├── Biscotti             # 核心项目源代码入口
├── CentralBlockML       # 中央区块相关的逻辑
├── Datasy                # 数据处理相关模块
├── DistSys               # 分布式系统组件
├── FedSys                # 联邦学习系统组件
├── LocalPerfTest        # 局部性能测试文件
├── ML                    # 机器学习逻辑相关文件
├── README.md             # 项目读我文件
├── LICENSE               # 许可证文件
├── gitignore             # Git 忽略规则
└── ...                   # 其他支持性文件和子目录

Biscotti: 包含项目的主入口和核心逻辑。
DistSys: 分布式系统的实现细节。
FedSys: 关于联邦学习的具体实现。
ML: 机器学习算法实现部分。
azure-deploy 和 azure: 用于在Azure上部署的脚本和配置。
LICENSE 和 README.md: 项目许可信息和快速概览。

启动文件介绍

本地部署

本地运行Biscotti主要依赖于DistSys文件夹下的脚本。要启动本地测试环境，你需要执行以下命令：

bash localTest.sh <numNodes> <dataset>

其中 <numNodes> 指定参与节点的数量，<dataset> 是使用的数据集名称。

非本地（分布式）部署

对于跨多机部署，你需要准备一个包含所有节点IP的文件，并使用 runBiscotti.sh 脚本来启动：

bash runBiscotti.sh <nodesInEachVM> <totalNodes> <hostFileName> <dataset>

这个命令将在不同的虚拟机上按指定数量部署节点。

配置文件介绍

Biscotti的配置分散在多个地方，尤其在涉及特定部署环境时。初始化环境和配置主要是通过脚本自动化完成的，比如 azure-install.sh 自动安装Go语言环境和必要依赖，并克隆项目到本地。对于特定的运行配置，特别是非本地部署，重要的是正确设置 azure/azure-conf 文件中的主机列表 (hostFile)，以及在部署前确保所有机器上的环境一致，包括Python版本限制在2.7.12。