Apache Pegasus 中副本服务器重启导致断言失败的故障分析

2025-07-06 22:45:41作者：舒璇辛Bertina

问题背景

在分布式存储系统 Apache Pegasus 中，数据同步（duplication）是一个重要功能，它允许将数据从一个集群同步到另一个集群。然而，在某些特定场景下，当副本服务器在数据同步过程中重启时，系统会出现断言失败导致进程异常退出的问题。

问题现象

当配置两个 Pegasus 集群（集群 A 和集群 B）进行数据同步时，如果满足以下条件：

集群 A 配置为无认证模式且仅包含一个节点
集群 B 配置为认证模式且包含三个节点
在集群 A 上创建表并启动全量数据同步
由于集群 B 的认证机制，同步状态停留在 DS_PREPARE
此时重启集群 A 的唯一副本服务器

服务器重启后会立即触发断言失败并退出，错误日志显示：

assertion expression: min_checkpoint_decree > 0
F2024-08-16 16:08:56.33 -1 vs 0 min_checkpoint_decree should be a number greater than 0 which means a new checkpoint must be created

技术分析

数据同步状态机

Pegasus 的数据同步过程包含多个状态：

DS_PREPARE：准备阶段，通常用于创建远程表或初始化同步环境
DS_APP：正常同步阶段
DS_LOG：日志同步阶段

在 DS_PREPARE 状态下，系统需要为全量同步创建检查点（checkpoint）。

问题根源

当副本服务器重启时，系统会重新初始化所有同步器（replica_duplicator）。对于处于 DS_PREPARE 状态的同步任务，系统会尝试触发手动紧急检查点。然而，重启后 min_checkpoint_decree 被错误地重置为无效值（-1），而系统断言要求该值必须大于 0。

设计缺陷

问题的本质在于状态恢复逻辑不完善：

对于已经存在的同步任务，重启后应该恢复其之前的状态
DS_PREPARE 状态的任务需要继续完成检查点创建
当前实现错误地将所有任务的 min_checkpoint_decree 重置，而没有考虑不同状态的差异

解决方案

修复方案需要确保：

重启后正确恢复同步任务的检查点状态
对于 DS_PREPARE 状态的任务，保持其 min_checkpoint_decree 的有效性
只有当确实需要创建新检查点时，才要求 min_checkpoint_decree > 0

总结

这个案例展示了分布式系统中状态恢复的重要性。在 Pegasus 的数据同步功能中，需要特别注意不同同步状态下的恢复逻辑差异。通过修复这个问题，提高了系统在异常情况下的健壮性，确保了数据同步过程的可靠性。

对于使用 Pegasus 的开发者和运维人员来说，理解系统在不同状态下的行为对于故障排查和系统维护至关重要。特别是在涉及认证、跨集群同步等复杂场景时，需要格外关注状态转换和恢复逻辑。

incubator-pegasus

Apache Pegasus - A horizontally scalable, strongly consistent and high-performance key-value store

项目地址：https://gitcode.com/gh_mirrors/incu/incubator-pegasus

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

202

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Apache Pegasus 中副本服务器重启导致断言失败的故障分析

问题背景

问题现象

技术分析

数据同步状态机

问题根源

设计缺陷

解决方案

总结

热门内容推荐

最新内容推荐

项目优选

Apache Pegasus 中副本服务器重启导致断言失败的故障分析

问题背景

问题现象

技术分析

数据同步状态机

问题根源

设计缺陷

解决方案

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选