Apache Pegasus 全量复制功能在 DS_PREPARE 状态卡住问题分析

2025-07-06 21:11:16作者：乔或婵

问题现象

在 Apache Pegasus 分布式键值存储系统中，用户创建了一个全量复制任务后，发现复制状态一直停留在 DS_PREPARE 阶段无法继续推进。系统日志显示，源集群的元数据服务尝试在目标集群创建对应的跟随者表时遇到了问题。

Pegasus 的全量复制功能涉及两个集群间的数据同步，主要流程包括：

从日志中可以观察到以下关键信息：

复制任务初始化成功：系统成功创建了复制任务，源应用名为"zgy_test_dup"，目标集群为"target_cluster"，目标应用名为"wetry_db.zgy_test_dup"。
状态卡在准备阶段：复制状态从DS_INIT成功转变为DS_PREPARE后，未能继续推进。
创建跟随者表失败：源集群元服务尝试在目标集群创建跟随者表时，首次遇到超时错误(ERR_TIMEOUT)，后续尝试则遇到表已存在错误(ERR_APP_EXIST)。
目标集群表创建情况：目标集群确实创建了表(ID为4672)，并尝试为每个分区分配主副本，但副本服务器无法连接到源集群获取检查点数据。

问题的核心在于网络连接问题：

安全策略限制：源集群的安全策略阻止了来自目标集群的连接请求，导致目标集群的副本服务器无法连接到源集群获取检查点数据。
状态机不一致：虽然表创建请求已发送到目标集群，但由于未能完成完整的初始化流程，系统状态出现不一致：
- 目标集群认为表已创建(返回ERR_APP_EXIST)
- 源集群未收到成功响应，认为表创建未完成
- 目标集群的副本因无法获取检查点数据而失败
错误处理不完善：系统在遇到这种部分成功的情况时，未能妥善处理，导致复制任务卡在中间状态。

这个问题展示了分布式系统中状态一致性的重要性。在跨集群操作中，网络问题可能导致系统进入不一致状态。Pegasus 可以通过增强错误处理逻辑和状态机设计来提升系统的鲁棒性。对于用户而言，确保集群间网络配置正确是使用复制功能的前提条件。

登录后查看全文