Redis集群扩容时节点崩溃问题分析与解决方案

2025-04-30 05:43:37作者：滕妙奇

问题背景

在Redis 7.2.4版本的集群环境中，当执行集群扩容和重新分片操作时，特别是在使用redis-cli cluster rebalance命令进行数据再平衡过程中，出现了源节点崩溃的情况。这种崩溃不仅导致迁移失败，还造成了集群槽位状态异常，且无法通过常规的cluster fix命令修复。

崩溃现象分析

从日志中可以观察到，崩溃发生时Redis服务器正在进行AOF重写操作，随后触发了断言失败：

=== ASSERTION FAILED ===
==> networking.c:2066 'c->duration == 0' is not true

这个断言失败表明在networking.c文件的2066行，Redis期望某个客户端连接的持续时间为0，但实际上不为0。随后，所有的后台工作线程和IO线程都相继终止。

根本原因

根据Redis开发者的反馈，这个问题很可能与Redis的阻塞操作(block)相关。在集群重新平衡过程中，如果同时有大量的流(stream)和阻塞操作在进行，就可能触发这个断言失败。

具体来说，当Redis处理客户端连接时，会跟踪每个连接的持续时间。在某些情况下，特别是涉及阻塞操作时，这个持续时间可能没有被正确重置，导致断言失败。

解决方案

对于这个特定问题，Redis开发者建议可以暂时注释掉serverAssert(c->duration == 0)这行断言代码。从理论上讲，这样做不会产生副作用，因为：

这个断言主要用于调试目的
持续时间不为0通常不会影响Redis的核心功能
在集群重新平衡过程中，这个检查不是关键性的

预防措施

为了避免在集群扩容和重新分片过程中出现类似问题，建议：

在业务低峰期执行集群扩容操作
减少或避免在重新平衡过程中执行大量的阻塞操作
监控集群状态，确保所有节点健康后再开始迁移
考虑分批次执行迁移，而不是一次性迁移大量数据

总结

Redis集群在扩容和重新分片过程中可能会遇到各种边缘情况，特别是在高并发和大量阻塞操作的环境下。理解这些问题的根本原因有助于我们采取适当的预防措施和解决方案。对于这个特定的断言失败问题，临时禁用相关检查是一个可行的应急方案，但长期来看，可能需要等待Redis官方发布修复版本。

redis

项目地址：https://gitcode.com/GitHub_Trending/re/redis

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.35 K

758

Redis集群扩容时节点崩溃问题分析与解决方案

问题背景

崩溃现象分析

根本原因

解决方案

预防措施

总结

热门内容推荐

最新内容推荐

项目优选

Redis集群扩容时节点崩溃问题分析与解决方案

问题背景

崩溃现象分析

根本原因

解决方案

预防措施

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选