DragonflyDB 从1.19.2升级到1.26.1版本导致SIGSEGV崩溃问题分析

2025-05-06 00:56:48作者：咎竹峻Karen

dragonflydb/dragonfly: DragonflyDB 是一个高性能分布式KV存储系统，旨在提供低延迟、高吞吐量的数据访问能力，适用于大规模数据存储和检索场景。

项目地址：https://gitcode.com/GitHub_Trending/dr/dragonfly

问题背景

DragonflyDB是一款高性能的内存数据库，近期有用户报告在从1.19.2版本升级到1.26.1版本时遇到了严重的崩溃问题。具体表现为在副本节点启动并尝试与主节点同步时，系统会抛出SIGSEGV信号导致进程崩溃。

问题现象

用户在多套DragonflyDB集群中都观察到了相同的故障模式：

当副本节点加载旧版本(1.19.2)生成的备份文件后，尝试与1.26.1主节点建立复制关系时崩溃
崩溃日志中显示Check failed: fetched_items_.empty()断言失败
移除备份文件后，副本节点可以成功完成全量同步并正常运行
在某些情况下，即使移除备份文件，全量同步也会失败

技术分析

崩溃根源

通过分析日志和代码，发现问题出在DbSlice模块的FlushDbIndexes()函数中。当副本节点尝试与主节点同步时，系统会先执行flush操作清理数据库，但此时fetched_items_容器不为空，导致断言失败。

深层原因

深入研究发现这与以下几个因素有关：

缓存模式(cache_mode)：问题仅在启用--cache_mode=true时出现。在1.19.2到1.26.1的升级过程中，缓存模式的行为发生了变化。
备份加载机制：当加载旧版本生成的备份文件时，某些键可能被多次加载，导致fetched_items_容器中残留条目。
复制流程：在复制初始化阶段，系统会执行flush操作，而此时如果fetched_items_不为空就会触发断言。
版本兼容性：1.19.2和1.26.1版本在备份文件格式和处理逻辑上存在差异，导致跨版本升级时出现问题。

解决方案

临时解决方案

对于遇到此问题的用户，可以采取以下临时措施：

移除旧的备份文件，让副本节点执行全量同步
暂时回退到1.26.0版本（但用户报告该版本也存在类似问题）

根本解决方案

开发团队正在从以下几个方面着手解决：

修复FlushDbIndexes()函数的断言逻辑，使其能够正确处理非空的fetched_items_容器
改进备份加载机制，确保不会残留未处理的键
增强版本兼容性检查，避免跨版本升级时出现不兼容问题
优化复制流程，确保在flush操作前所有中间状态都已清理

最佳实践建议

对于计划升级DragonflyDB的用户，建议：

在生产环境升级前，先在测试环境验证升级过程
升级时考虑先移除旧备份，执行全量同步
保留足够的监控和回滚方案
关注官方发布的版本更新，等待此问题的正式修复

总结

这次升级问题揭示了DragonflyDB在版本兼容性和状态管理方面的一些潜在问题。开发团队已经定位到问题根源，并正在积极修复。对于用户而言，理解问题的本质和临时解决方案可以帮助平稳度过升级过渡期。随着项目的持续发展，这类跨版本兼容性问题有望得到更好的解决。

dragonflydb/dragonfly: DragonflyDB 是一个高性能分布式KV存储系统，旨在提供低延迟、高吞吐量的数据访问能力，适用于大规模数据存储和检索场景。

项目地址：https://gitcode.com/GitHub_Trending/dr/dragonfly

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力