Longhorn项目中DR卷在增量恢复期间节点重启导致故障的分析与解决方案

2025-06-02 12:32:20作者：邬祺芯Juliet

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

问题背景

在Longhorn分布式存储系统的使用过程中，我们发现了一个与灾难恢复(DR)卷相关的重要问题。当用户在执行增量恢复操作期间，如果恰好遇到节点重启的情况，DR卷可能会进入故障(Faulted)状态而无法自动恢复。这一问题直接影响了系统的可靠性和数据可用性，特别是在生产环境中进行灾难恢复操作时尤为关键。

问题现象与复现条件

该问题的典型表现是：当DR卷正在进行增量恢复时，如果其所连接的节点被停止或重启，DR卷不仅无法正确重新附加到其他可用节点，还会进入故障状态。更严重的是，即使节点恢复正常后，DR卷仍然保持故障状态，无法自动恢复。

经过深入测试和分析，我们发现该问题的复现具有以下特点：

主要出现在使用S3等云存储作为备份目标时
在Longhorn v1.7.x和v1.8.x版本中复现率较高(约25-50%)
与集群DNS服务(CoreDNS)的可用性密切相关
当使用NFS作为备份存储时不会出现此问题

根本原因分析

通过多次测试和日志分析，我们定位到了问题的根本原因：

DNS依赖问题：当使用S3等云存储作为备份目标时，Longhorn需要通过DNS解析来访问备份存储服务。在节点重启期间，如果CoreDNS服务不可用，会导致备份存储操作失败。
单点故障风险：测试环境中CoreDNS通常只部署单个副本，当其所运行的节点被重启时，整个集群的DNS解析服务将中断。
恢复机制不足：当DR卷在增量恢复过程中遇到备份存储访问失败时，当前的错误处理机制会直接将卷标记为故障状态，而不是尝试重试或等待依赖服务恢复。
版本差异：该问题在v1.6.x版本中较少出现，可能是因为不同版本在处理网络故障时的策略有所差异。

解决方案与改进措施

针对这一问题，Longhorn团队实施了多层次的解决方案：

1. 系统架构改进

在系统设计层面，我们建议用户遵循以下最佳实践：

确保CoreDNS等服务有足够的副本数，避免单点故障
将关键系统组件(如备份存储访问服务)部署在控制平面节点而非工作节点
在生产环境中使用高可用的DNS服务配置

2. 新增诊断工具

Longhorn CLI工具新增了CoreDNS检查功能，可以帮助用户快速发现集群中潜在的DNS服务单点故障风险。该检查会：

检测CoreDNS的副本数量和分布情况
评估DNS服务的高可用性配置
在检测到风险时给出明确的警告和建议

3. 文档完善

我们在官方文档中新增了关于系统依赖服务的说明，特别强调了：

Longhorn对DNS服务的依赖关系
在生产环境中配置高可用DNS服务的重要性
关键系统组件部署的最佳实践

验证结果

经过改进后，我们在多个Longhorn版本上进行了严格验证：

在v1.8.0-dev版本上，新增的CoreDNS检查功能工作正常
按照文档建议配置高可用DNS后，DR卷在节点重启场景下的恢复成功率显著提高
使用NFS备份存储时完全避免了此类问题

总结与建议

这一问题揭示了分布式存储系统在设计时需要考虑的深层次依赖关系。通过这次问题的分析和解决，我们不仅修复了特定场景下的故障，更重要的是完善了系统的健壮性设计。

对于Longhorn用户，我们建议：

在生产环境中始终配置高可用的CoreDNS服务
定期使用Longhorn CLI工具检查系统健康状况
对于关键业务，考虑使用NFS等不依赖DNS解析的备份存储方案
在进行重大操作(如灾难恢复)前，确保所有依赖服务处于健康状态

通过系统化的解决方案和最佳实践，我们显著提高了Longhorn在复杂环境下的可靠性和数据安全性。

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架