Longhorn存储系统突发性全局卷降级问题分析与解决方案

2025-06-02 05:08:42作者：傅爽业Veleda

问题现象

在Longhorn 1.7.2版本部署环境中，运维人员观察到所有存储卷同时出现降级状态，部分卷出现1个副本故障，另一些则出现2个副本故障。这一现象发生在重启PostgreSQL Pod后的检查过程中，导致多个Pod失去数据局部性。

环境配置

该问题发生在基于Talos Linux 1.8.0的Kubernetes集群上，使用Helm方式部署Longhorn。集群包含3个控制平面节点和6个工作节点（含控制平面节点），节点配置为6核CPU、64GB内存和NVMe存储。值得注意的是，节点间网络带宽仅为1Gbps，未达到Longhorn推荐的10Gbps标准。

根本原因分析

通过对支持包的深入分析，技术团队发现以下关键问题点：

网络I/O超时：日志中大量出现"R/W Timeout. No response received in 8s"错误，表明引擎与下游副本间的延迟超过了8秒阈值，导致副本被标记为故障。
资源争用问题：实例管理器Pod的CPU使用率接近单核上限，这与默认的12% CPU保证设置（实际约等于单核的75%）相吻合。同时，后台数据校验操作占用了大量计算资源。
配置不当：环境采用了过于激进的运维策略，包括：
- 5个并发数据维护任务
- 3个工作线程处理周期性任务
- 每小时数据备份策略
- 文件系统冻结启用

解决方案与优化建议

针对上述问题，建议采取以下优化措施：

资源配置调整：
- 将实例管理器CPU保证提升至33%（约2核）
- 将引擎副本超时从8秒调整为30秒
- 将并发任务数从5降至2
- 将工作线程数从3降至2
数据策略优化：
- 将频繁数据备份调整为每4小时一次
- 对非关键卷取消不必要的数据备份策略
- 考虑禁用文件系统冻结功能
长期改进方向：
- 升级网络基础设施至10Gbps
- 为Longhorn配置专用存储设备
- 监控后台I/O负载情况