Rook项目中CephFS多文件系统升级时的MDS问题分析

2025-05-18 22:59:52作者：胡易黎Nicole

问题背景

在Rook项目（一个开源的云原生存储编排系统）中，当用户使用v1.14.10版本管理Ceph集群时，可能会遇到一个关于CephFS文件系统升级的问题。具体表现为：当集群中存在多个CephFS文件系统时，在进行Ceph版本升级（如从18.2.3升级到18.2.4）过程中，部分CephFS的元数据服务器（MDS）无法正常完成升级。

问题现象

从日志中可以观察到以下关键现象：

第一个CephFS（my-cephfs-2）能够顺利完成MDS升级
第二个CephFS（my-cephfs）在升级过程中失败，报错信息显示"timeout waiting for no standbys"
集群状态显示部分MDS仍运行在旧版本（18.2.3），而其他组件已升级到新版本（18.2.4）

技术分析

根本原因

问题的核心在于Rook的MDS升级逻辑存在缺陷。具体来说：

当前实现中，Rook在升级MDS时会检查所有standby状态的MDS守护进程，而不仅仅是针对当前正在升级的CephFS的standby MDS
当存在多个CephFS时，其他文件系统的standby MDS会被错误地纳入检查范围
这导致升级流程错误地等待所有standby MDS（包括不属于当前文件系统的）都停止，最终因超时而失败

影响范围

该问题主要影响以下场景：

使用Rook v1.14.10版本管理Ceph集群
集群中创建了多个CephFS文件系统
执行Ceph版本升级操作（如从18.2.3升级到18.2.4）

临时解决方案

在官方修复发布前，可以采用以下临时解决方案：

手动将其他CephFS的standby MDS副本数缩减为0
执行升级操作
升级完成后恢复standby MDS副本数

深入理解

CephFS架构背景

CephFS作为Ceph的分布式文件系统，其元数据服务由MDS集群提供。典型的CephFS部署包含：

活跃MDS：负责处理文件系统元数据操作
备用MDS（standby）：在活跃MDS故障时接管服务
多个CephFS实例可以共享同一组MDS守护进程

Rook的升级机制

Rook在升级Ceph组件时遵循以下流程：

逐个组件进行升级（MON、MGR、OSD等）
对于MDS，会先停止standby实例，然后升级活跃实例
最后恢复standby实例并完成升级

问题代码分析

问题的核心在于pkg/daemon/ceph/client/filesystem.go文件中的逻辑错误。当前实现检查所有standby MDS，而非特定文件系统的standby MDS，导致升级流程无法正确完成。

最佳实践建议

在升级前，建议先检查集群中所有CephFS的状态
考虑逐个升级CephFS，而非同时进行
监控升级过程中的MDS状态变化
确保有足够的日志记录以帮助问题诊断

总结

这个问题揭示了在复杂存储系统中版本升级时可能遇到的边缘情况。Rook作为云原生存储编排系统，需要更精细地处理多文件系统场景下的组件升级。理解这一问题有助于运维人员更好地规划和管理Ceph集群的升级过程，确保服务的连续性和数据的安全性。

rook

Storage Orchestration for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/roo/rook

登录后查看全文