Longhorn项目中整数除零错误的分析与修复

2025-06-02 04:04:30作者：秋阔奎Evelyn

背景介绍

在分布式存储系统Longhorn的最新版本中，用户报告了一个严重的稳定性问题：当尝试向节点添加新磁盘时，longhorn-manager组件会因整数除零错误而持续崩溃。这个问题不仅影响了系统的正常运行，还导致管理界面无法正常使用。

问题现象

用户在执行以下操作时触发了该问题：

通过Longhorn UI进入节点管理界面
尝试添加一个新磁盘路径"/mnt/hdd/longhorn"
保存配置后，longhorn-manager组件立即崩溃

系统日志显示了一个明确的运行时错误："runtime error: integer divide by zero"，发生在副本调度器的磁盘压力检查逻辑中。值得注意的是，这个磁盘路径在添加时并不存在，但系统并未正确处理这种情况。

技术分析

深入分析代码后发现，问题根源在于副本调度器的磁盘压力检查逻辑。当计算磁盘使用率时，代码没有对磁盘总容量为零的情况进行防御性处理，直接进行了除法运算。

具体来说，调度器在以下场景会触发此错误：

新添加的磁盘路径不存在
系统无法获取该磁盘的实际容量信息
后续的磁盘压力计算中，代码尝试用已使用量除以总容量(为零)

这种边界情况在正常的磁盘操作中不应该出现，但在实际部署环境中，特别是在自动化配置或特殊存储配置场景下，确实可能发生。

影响范围

该问题主要影响以下方面：

系统稳定性：导致管理组件持续崩溃
管理功能：无法通过正常流程移除问题磁盘
用户体验：UI显示异常(如显示负数的磁盘容量)

解决方案

开发团队通过以下方式解决了这个问题：

在磁盘压力计算前添加了容量零值检查
对于无效磁盘，明确标记为不可调度
完善错误处理逻辑，避免组件崩溃

修复的核心思想是"防御性编程"——在可能出错的地方预先检查条件，而不是依赖后续处理。

临时解决方案

对于遇到此问题的用户，可以采取以下临时措施：

暂时禁用longhorn-webhook-validator验证钩子
直接编辑节点CRD资源，移除问题磁盘配置
重新启用验证钩子，让系统恢复正常

最佳实践建议

为了避免类似问题，建议用户在操作Longhorn存储时注意：

添加新磁盘前，确保路径已存在且可访问
先创建目录结构，再配置Longhorn使用
定期检查系统日志，及时发现潜在问题
重要操作前进行备份

总结

这个案例展示了分布式存储系统中边界条件处理的重要性。Longhorn团队通过及时的修复和完善的单元测试，不仅解决了当前问题，还增强了系统对未来类似情况的抵御能力。对于用户而言，理解系统的这种防御机制有助于更好地规划和维护自己的存储环境。

该修复已包含在后续版本中，建议用户及时升级以获得更稳定的使用体验。

longhorn

Cloud-Native distributed storage built on and for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/lo/longhorn

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。