FATE项目中PSI求交协议的通信量测量与分析

2025-06-05 19:09:52作者：柯茵沙

背景介绍

隐私集合求交(Private Set Intersection, PSI)是联邦学习框架FATE中的一项核心技术，它允许参与方在不泄露各自原始数据的情况下计算数据集的交集。在FATE 1.7.2版本中，主要提供了两种PSI实现方案：基于RSA的方案和基于Diffie-Hellman(DH)的方案。虽然官方文档提供了这两种方案的运行时间数据，但关于通信量的具体测量方法却鲜有提及。

通信量测量方法

在分布式环境下，准确测量组件间的通信量对于系统性能优化和资源规划至关重要。针对FATE项目中的PSI求交协议，我们可以采用Linux系统的网络流量统计工具进行精确的流量统计。

测量原理

网络流量统计工具是Linux内核提供的网络管理工具，它不仅可以用于网络安全防护，还能记录通过特定规则匹配的网络数据包信息。通过配置适当的规则，我们可以捕获FATE组件间通信的详细数据，包括数据包大小、传输方向等关键信息。

具体实施步骤

配置流量统计规则：针对PSI求交任务，设置捕获特定目标端口(默认为9370)的TCP流量规则，并添加识别前缀以便后续分析。

sudo iptables -I OUTPUT -p tcp -d 目标IP --dport 9370 -j LOG --log-prefix "通信标识前缀"

执行PSI求交任务：在规则生效后，提交不同规模的PSI求交任务，包括DH方案和RSA方案。
分析日志数据：任务完成后，使用grep和awk工具从系统日志中提取并统计相关通信量数据。

grep "通信标识前缀" /var/log/messages | awk '{统计处理逻辑}'

清理流量统计规则：测量完成后，及时清除临时规则以避免影响系统正常运行。

sudo iptables -F OUTPUT

测量结果分析

通过对不同规模数据集(2^12到2^18)的测试，我们获得了DH和RSA两种PSI方案的通信量数据(单位：MB)：

协议类型	2^12	2^14	2^16	2^18
DH方案	2.36	9.36	37.27	149.38
RSA方案	2.47	9.81	39.15	156.50

从数据可以看出：

两种方案的通信量都随着数据集规模的增大而线性增长，符合理论预期。
在相同数据集规模下，RSA方案的通信量略高于DH方案，差异约为4-5%。
通信量的增长趋势与数据集规模的增长倍数基本保持一致，说明两种方案都具有良好的可扩展性。

技术要点说明

测量环境选择：需要注意的是，在FATE的standalone模式下无法准确测量通信量，必须使用集群部署模式(如Eggroll)才能获得真实数据。
测量方向：上述方法测量的是host向guest单向发送的数据量，实际完整的PSI过程还包括反向通信，总通信量应为双向之和。
数据包处理：网络流量统计记录的是TCP层的数据包信息，包含了协议头等额外开销，与纯应用层数据量略有差异。
性能权衡：虽然RSA方案的通信量略高，但其在计算复杂度或安全性方面可能有其他优势，实际选择应综合考虑多方面因素。

实际应用建议

在大规模数据集场景下，通信量可能成为系统瓶颈，建议根据实测数据提前规划网络带宽。
对于网络条件受限的环境，可以考虑优先选择DH方案以减少通信开销。
在性能测试时，应同时考虑通信量和计算时间两个维度，进行全面评估。
对于超大规模数据集，可以考虑采用抽样测量方法，先估算通信需求再决定具体实施方案。

通过这种系统化的测量方法，开发者可以更准确地评估PSI求交协议在实际部署中的资源需求，为系统优化和参数调优提供数据支持。

FATE

An Industrial Grade Federated Learning Framework

项目地址：https://gitcode.com/gh_mirrors/fa/FATE

登录后查看全文