MicroK8s中使用Rook-Ceph时CSI-RBD插件CrashLoopBackOff问题分析与解决

2025-05-26 01:40:57作者：戚魁泉Nursing

问题现象

在使用MicroK8s部署Rook-Ceph存储系统时，用户发现csi-rbdplugin组件持续处于CrashLoopBackOff状态，导致无法正常使用Ceph RBD提供的持久化存储功能。具体表现为：

csi-rbdplugin Pod不断重启
PVC可以创建但无法被Pod挂载
日志显示"driver name rook-ceph.rbd.csi.ceph.com not found in the list of registered CSI drivers"错误

根本原因分析

通过深入排查日志发现，问题的核心在于Linux内核模块加载失败。具体表现为：

rbd模块加载失败：CSI插件尝试加载Linux内核的rbd模块时出现"Exec format error"错误
nbd模块加载失败：在解决rbd问题后，又发现nbd模块同样无法加载

这些内核模块是Ceph RBD功能正常运行的基础依赖。当它们无法加载时，CSI插件无法完成初始化，导致整个RBD存储功能不可用。

解决方案

临时解决方法

可以通过以下命令手动加载所需内核模块：

sudo modprobe rbd
sudo modprobe nbd

这种方法可以立即解决问题，但模块加载不会在系统重启后保持。

永久解决方法

为了确保这些内核模块在系统启动时自动加载，需要将它们添加到系统配置中。推荐使用现代Linux系统的模块加载配置方式：

为每个模块创建单独的配置文件：

echo rbd | sudo tee /etc/modules-load.d/rbd.conf
echo nbd | sudo tee /etc/modules-load.d/nbd.conf

设置适当的文件权限：

sudo chmod 644 /etc/modules-load.d/rbd.conf
sudo chmod 644 /etc/modules-load.d/nbd.conf

注意：虽然某些情况下可能需要更宽松的权限（如777），但644通常是更安全的选择。如果遇到问题，可以适当调整权限。

技术背景

为什么需要这些内核模块

rbd模块：这是Ceph的RADOS块设备(RBD)驱动，负责在Linux内核层面实现Ceph块存储功能
nbd模块：网络块设备(Network Block Device)驱动，在某些配置下被Rook-Ceph用于块设备映射

模块加载失败的原因

在较新的Linux内核版本（如6.5+）中，这些模块可能不会默认加载。特别是在使用云镜像或某些最小化安装时，内核模块的自动加载机制可能没有正确配置。

验证解决效果

解决问题后，可以通过以下方式验证：

检查CSI插件Pod状态：

kubectl get pods -n rook-ceph

应该看到csi-rbdplugin Pod处于Running状态

测试PVC挂载：创建一个测试Pod挂载之前无法使用的PVC，确认可以正常挂载和使用
检查内核模块状态：

lsmod | grep -E 'rbd|nbd'

应该能看到这两个模块已加载

最佳实践建议

生产环境准备：在部署MicroK8s+Rook-Ceph前，应预先检查并配置好所需内核模块
内核版本兼容性：虽然较新内核通常支持这些模块，但建议测试特定内核版本与Ceph的兼容性
自动化配置：在自动化部署流程中加入内核模块配置步骤，确保环境一致性
监控设置：配置监控以检测内核模块加载状态，及时发现类似问题

总结

在MicroK8s中使用Rook-Ceph时遇到CSI-RBD插件无法正常工作的问题，通常与Linux内核模块配置有关。通过正确加载和配置rbd、nbd内核模块，可以解决这类问题。本文提供的解决方案不仅适用于当前问题场景，也为处理类似的内核模块依赖问题提供了参考思路。

microk8s

MicroK8s is a small, fast, single-package Kubernetes for datacenters and the edge.

项目地址：https://gitcode.com/gh_mirrors/mic/microk8s

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理