Rook项目Ceph Dashboard模块加载失败问题分析与解决

2025-05-18 04:32:51作者：温玫谨Lighthearted

Storage Orchestration for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/roo/rook

问题背景

在Rook项目的持续集成测试中，开发团队发现使用最新开发版Ceph镜像时，对象存储和冒烟测试套件开始出现失败。具体表现为无法通过radosgw-admin命令创建dashboard-admin用户，以及Ceph Dashboard相关命令完全不可用。

错误现象

测试过程中主要出现两类错误：

radosgw-admin命令执行失败：当尝试执行radosgw-admin user info --uid=dashboard-admin --rgw-realm=lite-store命令时，返回错误码22(EINVAL)，提示"could not fetch user info: no user info saved"。
Dashboard模块缺失：所有ceph dashboard相关命令均不可用，执行ceph dashboard ac-user-create等命令时提示"no valid command found"。

根本原因分析

经过深入排查，发现问题根源在于Ceph的Dashboard和Prometheus模块无法正常加载。从MGR日志中可以清晰看到模块加载失败的具体错误：

Prometheus模块加载失败：由于无法正确解析cherrypy的版本号，导致模块初始化失败。错误显示"Invalid version: 'unknown'"。
Dashboard模块加载失败：由于cherrypy模块结构变化，无法找到wsgiserver子模块。错误显示"No module named 'cherrypy.wsgiserver'"。

这些问题源于Ceph开发分支中Python依赖包的结构变化与模块代码不兼容所致。特别是cherrypy库的更新导致了向后兼容性问题。

解决方案

Ceph开发团队迅速响应，提交了修复补丁。主要解决措施包括：

更新了cherrypy版本兼容性检查逻辑，使其能够正确处理新版cherrypy的结构变化。
修复了Prometheus模块对cherrypy版本号的解析方式。
调整了Dashboard模块对cherrypy内部结构的引用方式，确保与新版本兼容。

经验总结

这次事件为我们提供了几个重要启示：

开发版镜像的稳定性：使用开发分支镜像进行测试时，需要警惕可能出现的兼容性问题。开发分支的快速迭代可能导致某些功能暂时不可用。
模块化架构的重要性：Ceph的模块化设计使得问题能够被快速定位和修复，而不会影响核心功能的稳定性。
依赖管理的复杂性：Python依赖包的版本管理在复杂系统中尤为重要，特别是当多个模块共享相同依赖时。
持续集成的价值：完善的CI系统能够快速发现这类兼容性问题，避免它们进入稳定版本。

后续改进

为了避免类似问题再次发生，建议采取以下措施：

在CI系统中增加模块健康检查，确保所有核心模块都能正常加载。
考虑在测试套件中加入基础功能验证，如检查关键命令的可用性。
建立更严格的依赖版本管理机制，特别是对于关键依赖如cherrypy等。

通过这次问题的解决，Rook项目与Ceph社区的协作得到了进一步加强，也为未来处理类似问题积累了宝贵经验。

Storage Orchestration for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/roo/rook

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统