Rook/Ceph集群中MDS服务卡在replay状态的分析与解决

2025-05-18 05:02:53作者：魏献源Searcher

问题背景

在Rook/Ceph分布式存储系统中，当管理员对集群节点进行重启维护后，可能会出现文件系统持续处于"recovering"状态的问题。具体表现为所有PG（Placement Group）进入stale+active+clean状态，MDS（Metadata Server）服务长时间停留在up:replay阶段，无法完成恢复过程。

问题现象

典型的故障现象包括：

文件系统显示为"degraded"状态
MDS服务日志不断显示"Updating MDS map"信息
健康检查显示"MDSs behind on trimming"警告
部分Ceph命令执行卡住或无响应
新创建的PVC无法正常绑定

根本原因分析

经过深入排查，发现问题的核心在于MDS服务的日志回放机制。当集群节点重启后，MDS需要从日志中恢复元数据状态。在此过程中，存在两个关键指标：

journal_read_pos：当前读取的日志位置
journal_write_pos：需要恢复到的最终日志位置

当这两个值不一致时，MDS会持续进行日志回放操作。然而，由于默认配置下的内存限制，MDS服务在回放大量日志时会出现内存不足的情况，导致进程被OOM Killer终止。当MDS重新启动后，journal_read_pos又会从journal_expire_pos位置重新开始，形成恶性循环，使得恢复过程永远无法完成。

解决方案

临时解决方案

检查MDS恢复状态：

ceph tell mds.<fs_name>:0 status | jq .replay_status

增加MDS内存限制：通过修改Rook的CephFilesystem CRD配置，增加MDS容器的内存资源限制，确保有足够内存完成日志回放。

永久解决方案

优化MDS资源配置：在集群规划阶段，应根据文件系统规模合理配置MDS资源，特别是对于元数据操作频繁的环境。
定期维护：在计划性维护前，建议先执行文件系统冻结操作，减少需要回放的日志量。
监控设置：建立对MDS内存使用和日志回放进度的监控，及时发现潜在问题。

经验总结

对于生产环境，MDS服务的内存配置不应低于4GB，大型集群可能需要8GB或更多。
节点重启操作应分批次进行，避免同时重启所有节点导致大量日志需要回放。
定期检查文件系统的健康状态，特别是trimming进度，避免日志堆积。
在问题排查时，journal_read_pos和journal_write_pos的差值可以直观反映恢复进度。

通过这次事件，我们认识到在分布式存储系统中，元数据服务的资源分配同样重要。只有保证MDS有足够的资源，才能确保文件系统在各种异常情况下都能正常恢复。

rook

Storage Orchestration for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/roo/rook

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

497

522

pytorch

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

668

316

Rook/Ceph集群中MDS服务卡在replay状态的分析与解决

问题背景

问题现象

根本原因分析

解决方案

临时解决方案

永久解决方案

经验总结

热门内容推荐

最新内容推荐

项目优选

Rook/Ceph集群中MDS服务卡在replay状态的分析与解决

问题背景

问题现象

根本原因分析

解决方案

临时解决方案

永久解决方案

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选