GlusterFS集群添加节点失败问题分析与解决

2025-06-10 16:26:15作者：贡沫苏Truman

问题现象

在使用GlusterFS分布式存储系统时，尝试向现有5节点集群中添加新节点vrfcanaclu04时，执行gluster peer probe vrfcanaclu04命令失败，系统返回错误信息："peer probe: failed: vrfcanaclu04 is either already part of another cluster or having volumes configured"。

环境背景

该GlusterFS集群运行在Ubuntu 20.04.6 LTS系统上，使用的是GlusterFS 9.6版本。集群自2022年以来一直稳定运行，此次是首次尝试扩展集群规模。

错误分析

从日志中可以观察到几个关键信息：

主控节点日志显示无法找到目标节点的peerinfo信息
目标节点日志报错"wrong MSG-TYPE received"
主控节点尝试建立SSL连接但最终失败
多个服务(quotad、bitd、scrub)显示已停止状态

这些现象表明节点间的通信存在问题，特别是SSL/TLS加密通信环节。

根本原因

经过深入排查，发现问题根源在于GlusterFS加密配置不完整。虽然集群启用了加密功能，但在新节点上缺少关键的认证文件/var/lib/glusterd/secure-access，导致节点间无法建立安全的通信连接。

解决方案

在新节点vrfcanaclu04上创建认证文件：
```
touch /var/lib/glusterd/secure-access
```
确保所有节点上的glusterd服务已重启：
```
systemctl restart glusterd
```
重新执行节点添加命令：
```
gluster peer probe vrfcanaclu04
```

预防措施

为避免类似问题再次发生，建议：

在扩展GlusterFS集群前，统一检查所有节点的加密配置
建立标准化的节点部署流程，确保关键配置文件的完整性
在集群扩容前，先验证节点间的基础通信能力

技术要点

GlusterFS的加密功能依赖于/var/lib/glusterd/secure-access文件的存在。这个文件的作用是：

标识节点参与加密通信
作为加密认证的基础
控制节点间的安全通信通道

当该文件缺失时，虽然主节点尝试建立SSL连接，但由于认证不完整，最终会导致节点添加失败，并显示误导性的错误信息。

总结

GlusterFS集群扩展过程中遇到的节点添加问题，往往与基础配置和通信安全设置相关。通过系统化的日志分析和配置检查，可以快速定位并解决这类问题。对于生产环境，建议建立完善的变更管理流程，确保集群扩展操作的安全性和可靠性。

glusterfs

Gluster Filesystem : Build your distributed storage in minutes

项目地址：https://gitcode.com/gh_mirrors/gl/glusterfs

登录后查看全文