Rook Ceph 集群在 Multus 网络环境下部署问题解析

2025-05-18 08:36:28作者：余洋婵Anita

问题背景

在使用 Rook Ceph 存储系统时，许多用户会选择 Multus CNI 插件来实现多网络接口支持。然而，在实际部署过程中，网络配置不当可能导致 Ceph 集群无法正常初始化。本文将深入分析一个典型的多网络环境下 Rook Ceph 集群部署失败案例，并提供解决方案。

现象描述

用户在使用 Multus 为 Rook Ceph 配置多网络接口时，遇到了集群初始化失败的问题。具体表现为：

监控(mon) Pod 启动缓慢且不同步，mon-a 首先启动，几分钟后才出现 mon-b，然后是 mon-c
即使所有监控 Pod 都运行后，管理(mgr)和对象存储守护进程(osd) Pod 也未能部署
集群状态停滞，无法完成初始化

根本原因分析

经过深入排查，发现问题主要出在 NetworkAttachmentDefinition (NAD) 的配置上：

路由配置不当：NAD 中配置了默认路由 { "dst": "0.0.0.0/0" }，这会导致所有流量（包括 Kubernetes 服务网络流量）都通过存储网络接口，而非预期的 Pod 接口
网络隔离不足：存储网络被配置为具有互联网访问能力，而实际上 Ceph 集群的通信应该保持在 Kubernetes 集群内部
Multus 验证失败：由于环境限制，Multus 验证测试未能通过，表明网络配置可能存在问题

解决方案

1. 修正 NetworkAttachmentDefinition 配置

正确的 NAD 配置应避免设置默认路由，确保 Kubernetes 服务网络流量仍通过 Pod 主接口。以下是修正后的配置示例：

apiVersion: "k8s.cni.cncf.io/v1"
kind: NetworkAttachmentDefinition
metadata:
  name: ceph-public
  namespace: rook-ceph
spec:
  config: '{
    "cniVersion": "0.3.0",
    "type": "macvlan",
    "master": "enp6s0",
    "mode": "bridge",
    "ipam": {
      "type": "host-local",
      "subnet": "10.12.0.0/24",
      "rangeStart": "10.12.0.11",
      "rangeEnd": "10.12.0.250"
    }
  }'

关键修改点：

移除了 routes 部分，特别是默认路由配置
移除了 gateway 配置，确保网络保持私有性

2. 实施网络验证

在部署前，建议执行 Multus 验证测试，确保网络配置正确。虽然在某些资源受限的环境中可能无法完全通过验证，但至少应确保：

基本网络连通性
DNS 解析功能正常
跨节点通信能力

3. 监控部署过程

部署时应密切监控以下组件状态：

监控 Pod：确保三个 mon Pod 在合理时间内全部启动并形成仲裁
管理 Pod：检查 mgr Pod 是否在 mon 就绪后正常启动
OSD 准备 Job：确认 OSD 准备作业是否成功完成
OSD Pod：验证 OSD Pod 是否根据存储设备配置正确部署

最佳实践建议

网络规划：
- 为 Ceph 公共网络和集群网络使用独立的子网
- 确保网络范围不与 Kubernetes 服务或 Pod 网络重叠
- 考虑使用 VLAN 隔离存储网络流量
Multus 配置：
- 避免在存储网络 NAD 中配置默认路由
- 为关键组件配置适当的网络策略
- 考虑使用网络隔离功能增强安全性
资源准备：
- 确保节点有足够资源运行 Multus 和 Ceph 组件
- 为存储网络预留足够的 IP 地址
- 预先配置好物理网络设备

总结

在 Kubernetes 环境中部署 Rook Ceph 并使用 Multus 实现多网络支持时，网络配置的准确性至关重要。通过本文的分析和解决方案，用户可以避免常见的网络配置陷阱，确保 Ceph 集群能够顺利初始化并稳定运行。记住，存储网络应该保持私有性，不应配置为具有互联网访问能力，同时要确保 Kubernetes 服务网络流量仍通过 Pod 主接口传输。

rook

Storage Orchestration for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/roo/rook

登录后查看全文