Longhorn实例管理器Pod重启问题分析与优化建议

2025-06-02 13:32:58作者：彭桢灵Jeremy

问题背景

在Longhorn分布式存储系统中，用户报告了一个关键稳定性问题：在短时间内出现大量iSCSI连接错误后，实例管理器(Instance Manager, IM)Pod会被删除并重新创建，导致所有Longhorn引擎和副本连接中断。这一问题在v1.6.2版本中被发现，尤其在高负载环境下表现明显。

通过对日志的深入分析，我们观察到以下典型现象序列：

iSCSI连接错误爆发：系统日志中突然出现大量iSCSI连接错误记录，格式为"connectionX:0: detected conn error (1020)"，这些错误几乎同时出现在所有活跃连接上。
磁盘介质错误：紧接着iSCSI错误后，内核日志显示相关磁盘设备出现介质错误，如"Medium Error"和"Unrecovered read error"。
实例管理器Pod终止：约5秒后，系统记录显示实例管理器Pod被删除，此时所有关联的引擎和副本进程都会断开连接。
新Pod创建：Kubernetes随后会创建新的实例管理器Pod来替代被终止的Pod。

经过技术团队的深入调查，发现问题可能由以下几个因素共同导致：

liveness探针超时：实例管理器Pod配置了严格的存活探针检查，默认设置包括：
- 初始延迟：3秒
- 超时时间：4秒
- 检查间隔：5秒
- 失败阈值：3次
高负载环境影响：在用户环境中，单个实例管理器Pod承载了过多实例(400-600个)，远超过推荐值(约105个)。这种高负载状态可能导致探针响应延迟。
资源竞争：当系统处于高I/O压力下，CPU资源竞争加剧，进一步延长了探针响应时间。
连锁反应：一旦探针超时导致Pod重启，会引发iSCSI连接中断和磁盘错误，进而影响更多卷的可用性。

针对这一问题，Longhorn团队提出了以下优化措施：

对于面临类似问题的用户，我们建议：

Longhorn实例管理器Pod的稳定性对整个存储系统的可靠性至关重要。通过优化存活探针配置和增强日志记录，我们显著提升了系统在高负载环境下的稳定性。这一改进已被纳入Longhorn的后续版本中，为用户提供更可靠的存储服务体验。

登录后查看全文