Redis集群模式下slotToKeyReplaceEntry崩溃问题分析

2025-04-30 15:58:51作者：申梦珏Efrain

Redis 是一个高性能的键值对数据库，通常用作数据库、缓存和消息代理。* 缓存数据，减轻数据库压力；会话存储；发布订阅模式。* 特点：支持多种数据结构，如字符串、列表、集合、散列、有序集等；支持持久化存储；基于内存，性能高。

项目地址：https://gitcode.com/GitHub_Trending/re/redis

问题背景

Redis作为一款高性能的内存数据库，在集群模式下通过哈希槽(slot)机制实现数据分片。近期在Redis 7.2.3版本中发现了一个严重问题：当启用主动内存碎片整理(activedefrag)功能时，系统可能会在slotToKeyReplaceEntry函数处发生崩溃，导致服务不可用。

崩溃现象分析

从崩溃日志中可以观察到以下关键信息：

崩溃发生在slotToKeyReplaceEntry函数中，错误类型为SIGSEGV(信号11)，表明是内存访问越界
系统尝试访问0x50地址，这是一个明显的非法内存地址
调用栈显示崩溃发生在内存碎片整理过程中，经过activeDefragCycle->databasesCron->serverCron调用链

根本原因

经过深入分析，发现该问题由两个独立但相关的因素共同导致：

1. 异步清空数据库时的初始化遗漏

在集群模式下，当使用异步方式清空数据库(如FLUSHDB ASYNC或配置lazyfree-lazy-user-flush)时，系统会遗漏对slots_to_keys结构的重新初始化。这导致后续操作尝试访问已被释放的内存区域。

具体来说，当异步清空数据库后，dictMetadata(db->dict)->db指针可能指向无效内存，而内存碎片整理过程会尝试访问这个指针，从而触发崩溃。

2. 内存碎片整理过程中的状态不一致

另一个独立的问题是，当在内存碎片整理过程中动态禁用activedefrag配置，然后又重新启用时，会导致内部状态不一致。特别是expires_cursor变量没有被正确重置，使得后续碎片整理操作可能使用无效的数据库指针。

解决方案

针对这两个问题，Redis社区已经提供了修复方案：

对于异步清空数据库的问题，修复方案是在清空操作后显式调用slotToKeyInit()函数，确保slots_to_keys结构被正确初始化。
对于内存碎片整理状态问题，修复方案是在禁用activedefrag时重置所有相关状态变量，包括expires_cursor和defrag_cursor，确保重新启用时从干净状态开始。

影响范围

该问题主要影响以下环境：

运行Redis 7.2.3版本的集群模式
启用了activedefrag功能
使用了异步数据库操作(FLUSHDB ASYNC等)或动态调整activedefrag配置

临时规避措施

在升级到包含修复的版本前，可以采取以下临时措施：

禁用activedefrag功能
避免使用异步清空数据库操作
不要在生产环境动态调整activedefrag配置

最佳实践建议

在升级Redis版本时，应充分测试与内存管理相关的功能
对于生产环境，建议在低峰期执行数据库清空操作
谨慎使用动态配置调整功能，特别是与内存管理相关的参数
监控系统日志，及时发现并处理类似的内存访问异常

总结

Redis集群模式下的这个崩溃问题揭示了内存管理与集群功能交互中的一个边界条件。通过分析可以看出，在复杂系统设计中，初始化顺序和状态一致性是保证系统稳定性的关键因素。Redis社区已经快速响应并提供了修复方案，体现了开源社区的高效协作精神。

Redis 是一个高性能的键值对数据库，通常用作数据库、缓存和消息代理。* 缓存数据，减轻数据库压力；会话存储；发布订阅模式。* 特点：支持多种数据结构，如字符串、列表、集合、散列、有序集等；支持持久化存储；基于内存，性能高。

项目地址：https://gitcode.com/GitHub_Trending/re/redis

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。