Longhorn实例管理器在压力测试下异常重启问题分析

2025-06-02 00:19:32作者：滕妙奇

问题背景

在Longhorn分布式存储系统的实际使用中，用户报告了一个稳定性问题：当集群处于高负载状态时，所有实例管理器(Instance Manager)会意外被删除并重新创建。该问题出现在一个三节点裸金属集群环境中，节点配置为96核CPU和512GB内存，使用NVMe存储设备，网络带宽为20Gbps。

问题现象

用户在进行压力测试时创建了150多个卷，并对每个卷执行混合I/O特性的fio测试（包括8K随机读写和2M随机读写），同时每三小时执行一次快照操作。测试运行约6小时后，系统开始出现异常：

副本(replica)首先出现故障
随后所有实例管理器逐个被重启
系统最终完全不可用

值得注意的是，Kubernetes的容器重启计数器并未记录这些重启事件，用户是通过检查实例管理器的运行时间发现这一问题的。

技术分析

经过技术团队深入分析，发现问题可能由以下几个因素导致：

健康检查机制：实例管理器中的liveness probe在高负载情况下可能无法及时响应，导致Kubernetes认为实例管理器不可用而触发重启。
资源竞争：在高I/O压力下，系统资源（特别是CPU）可能被大量占用，导致实例管理器进程无法获得足够的资源来维持正常运行。
内部服务响应延迟：实例管理器需要管理多个卷副本进程，当系统负载极高时，内部服务响应可能变慢，触发超时机制。

解决方案

技术团队针对此问题提出了以下解决方案：

优化健康检查机制：调整liveness probe的检测参数，使其在高负载环境下更具弹性。
资源隔离保障：为实例管理器进程预留必要的系统资源，防止被其他进程完全占用。
日志增强：在关键路径添加详细日志记录，便于问题诊断和后续优化。

验证结果

用户通过应用相关修复补丁后，成功解决了实例管理器异常重启的问题。测试表明，在相同压力条件下，系统能够保持稳定运行，不再出现实例管理器被意外重启的情况。

最佳实践建议

对于在高负载环境下使用Longhorn的用户，建议：

监控系统资源使用情况，确保有足够的资源余量
定期更新到最新稳定版本，获取最新的稳定性修复
在生产环境部署前，进行充分的压力测试
合理配置卷的数量和I/O特性，避免超出系统承载能力

该问题的解决显著提升了Longhorn在高负载环境下的稳定性，使其更适合作为企业级存储解决方案在生产环境中部署。

longhorn

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

985