Pegasus分布式存储系统中跨集群数据复制卡顿问题分析

2025-07-05 12:25:42作者：郁楠烈Hubert

Apache Pegasus是一个专为高性能、强一致性设计的分布式键值存储系统，填补了Redis和HBase之间的空白。采用C++编写，它在保证数据多层级安全、支持数据中心间快速迁移及自动负载均衡的同时，提供了一套简单易用的API。每条写入通过三副本复制确保数据持久化，且利用PacificA协议实现强一致性的复制与成员变更。Pegasus还具备内置自动负载均衡、冷备份机制以及数据中心内最终一致性的复制能力，适应复杂的企业级需求。支持多种语言客户端，包括Java、C++等，确保开发灵活性。加入Apache Pegasus社区，共创高可用、高效能的存储解决方案。

项目地址：https://gitcode.com/gh_mirrors/pegasus15/pegasus

问题背景

在Apache Pegasus分布式存储系统的实际使用中，我们发现了一个关于跨集群数据复制功能的异常情况。当用户尝试使用检查点(checkpoint)机制进行表数据复制时，复制过程会在DS_APP状态停滞不前，无法正常完成数据同步。

问题现象

用户首先在源集群创建了一个名为test_dup1的表，并插入了两条测试数据。随后，用户尝试通过add_dup命令添加一个带有检查点机制的跨集群复制任务，指定了目标表名和副本数量参数。命令执行后，系统返回了看似成功的响应，但长时间观察发现复制状态一直停留在DS_APP状态，无法继续推进。

通过查询复制状态详情，可以看到系统记录了复制任务的创建时间、ID、失败模式、目标集群等信息，但状态字段明确显示为DS_APP。同时，源集群的元数据服务器日志中出现了"query follower app replica configuration completed"的错误信息，提示存在对象未找到(ERR_OBJECT_NOT_FOUND)的问题。

技术分析

DS_APP状态在Pegasus复制状态机中表示"等待目标应用准备就绪"的阶段。正常情况下，系统应该在这个阶段检查目标集群中是否存在对应的表，并确保其配置正确。然而，从日志中的ERR_OBJECT_NOT_FOUND错误可以推断，系统在查询目标集群时未能找到预期的表结构。

深入分析发现，问题的根源在于复制流程中对于目标表创建和检查的逻辑存在缺陷。当用户通过remote_app_name参数指定目标表名时，系统没有正确触发目标表的创建流程，导致后续的状态检查失败。同时，对于remote_replica_count参数的处理也存在类似问题，系统未能正确地将指定的副本数应用到目标表上。