Hetzner-k3s集群中替换故障节点时的密码冲突问题解决方案

2025-07-02 09:10:33作者：宣聪麟

问题背景

在使用Hetzner-k3s管理Kubernetes集群时，运维人员可能会遇到需要替换故障节点的情况。按照标准流程，通常会先使用kubectl delete node命令删除故障节点，然后通过Hetzner控制台删除对应的虚拟机，最后重新运行hetzner-k3s create命令创建新节点。然而，这一过程有时会出现新节点无法成功加入集群的问题。

问题现象

当执行上述替换流程后，新节点的k3s-agent服务无法正常启动。通过检查systemctl status k3s-agent日志，会发现如下关键错误信息：

Waiting to retrieve agent configuration; server is not ready: Node password rejected, duplicate hostname or contents of '/etc/rancher/node/password' may not match server node-passwd entry, try enabling a unique node name with the --with-node-id flag

这个错误表明集群中存在密码冲突问题。具体原因是：虽然旧节点已被删除，但主节点上仍然保留着旧节点的密码配置，而新节点生成了新的密码，由于主机名相同，导致认证失败。

问题根源

K3s集群在管理节点时会为每个节点创建一个密码凭证，这些凭证以Kubernetes Secret的形式存储在kube-system命名空间中。当节点被删除时，仅删除节点资源本身是不够的，相关的密码Secret仍然保留在集群中。当新节点使用相同主机名尝试加入时，会因为密码不匹配而被拒绝。

完整解决方案

删除故障节点：首先使用kubectl delete node <节点名称>命令从集群中移除故障节点。
清理节点密码Secret：在重新创建节点前，必须手动删除存储在kube-system命名空间中的节点密码Secret。这些Secret的命名模式通常为<节点名称>.node-password.k3s。可以使用以下命令查找并删除：
```
kubectl get secrets -n kube-system | grep node-password
kubectl delete secret <密码Secret名称> -n kube-system
```
删除虚拟机实例：通过Hetzner控制台删除对应的故障虚拟机。
创建新节点：最后执行hetzner-k3s create --config ./hetzner-k3s.yml命令创建新节点。此时系统会生成新的密码Secret，新节点能够顺利加入集群。