Longhorn项目v2数据引擎在重建失败后崩溃问题分析

2025-06-02 19:35:44作者：裘旻烁

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

问题背景

Longhorn是一个开源的云原生分布式块存储系统，其v2数据引擎在重建过程中出现了一个稳定性问题。当重建操作失败时，目标副本可能在引擎完成失败处理前被清理，导致引擎崩溃。

问题现象

在v2数据引擎环境下，当某个包含v2副本的实例管理器Pod被删除后，系统会尝试重建或重用该副本。如果重建过程中源副本或目标副本启动失败，目标副本会被标记为"Failed"状态并被立即清理。而此时引擎仍在处理重建失败的相关操作，最终导致引擎崩溃。

技术细节分析

该问题的核心在于重建流程中的时序控制不当。具体表现为：

重建过程中，源副本或目标副本可能因各种原因（如连接超时）无法正常启动
当重建失败时，系统会立即清理目标副本
与此同时，引擎仍在执行重建失败的后续处理流程
当引擎尝试访问已被清理的目标副本时，由于找不到对应副本而崩溃

从日志中可以看到关键错误信息："cannot find the dst replica...in the engine...replica status map during replica add finish"，这明确指出了引擎在完成阶段无法找到预期存在的副本。

解决方案

修复方案主要关注重建流程的时序控制：

确保在引擎完成所有重建相关操作前，不会提前清理目标副本
完善错误处理逻辑，使引擎能够优雅地处理重建失败的情况
增加状态检查机制，避免访问不存在的副本

验证结果

该问题已在Longhorn的主干分支和v1.8.x分支中得到修复。测试验证表明，在相同测试场景下，修复后的版本不再出现引擎崩溃现象。

最佳实践建议

对于使用Longhorn v2数据引擎的用户，建议：

及时升级到包含此修复的版本
监控重建操作的状态，特别是当副本出现异常时
确保集群网络稳定，减少因网络问题导致的副本重建失败

此问题的修复显著提升了v2数据引擎在异常情况下的稳定性，为用户提供了更可靠的存储服务。

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。