解决kube-hetzner项目中SSH连接超时问题的技术分析

2025-06-27 13:41:49作者：滑思眉Philip

在使用kube-hetzner项目部署Kubernetes集群时，用户可能会遇到SSH连接超时的问题，表现为"local-exec provisioner error"错误。这个问题通常与系统环境配置或基础设施准备阶段有关。

问题现象

在执行terraform apply命令部署集群时，控制台会显示如下错误信息：

Error: local-exec provisioner error
Error running command 'timeout 600 bash <<EOF
  until ssh -o UserKnownHostsFile=/dev/null -o StrictHostKeyChecking=no -o IdentitiesOnly=yes -o PubkeyAuthentication=yes -i /tmp/1jyt7gq4t7x3vunftrcl -o ConnectTimeout=2 -p 22 root@5.75.235.144 true 2> /dev/null
  do
    echo "Waiting for MicroOS to become available..."
    sleep 3
  done
EOF
': exit status 127. Output: timeout: can't execute 'bash': No such file or directory

问题根源

经过分析，这个问题主要有两个可能的原因：

基础环境依赖缺失：错误信息显示系统找不到bash命令，这表明执行环境缺少必要的Linux工具链。这种情况常见于Windows环境或精简的容器环境中。
MicroOS系统初始化失败：从日志中可以看到cloud-init服务启动失败，这会导致系统无法完成初始化配置，进而影响SSH服务的正常运行。

解决方案

针对环境依赖问题

确保执行环境完整：
- 在Linux或macOS系统上直接运行terraform命令
- 在Windows系统上使用WSL(Windows Subsystem for Linux)
- 如果使用容器环境，确保镜像包含完整的bash和timeout工具
验证环境工具链：执行以下命令检查必要工具是否可用：
```
which bash timeout ssh
```

针对MicroOS初始化问题

检查系统日志：通过Hetzner控制台连接到问题节点，查看cloud-init日志：
```
journalctl -u cloud-init --no-pager
```
验证网络配置：
- 确保节点能够访问互联网以下载必要资源
- 检查DNS解析是否正常
- 验证安全组规则是否允许SSH连接(默认端口22)
使用最新版本：确保使用kube-hetzner的最新版本(v2.17.0+)，该版本已经修复了相关已知问题。

最佳实践建议

环境准备：
- 始终在完整的Linux环境下执行terraform命令
- 对于CI/CD流水线，选择包含完整工具链的基础镜像
部署前检查：
- 验证Hetzner API token的有效性
- 确保SSH密钥配置正确
- 检查网络区域和服务器类型的可用性
问题排查步骤：
- 首先检查terraform版本和模块版本是否匹配
- 查看Hetzner控制台中节点的状态
- 通过救援模式访问问题节点检查详细日志
版本控制：
- 在terraform配置中明确指定模块版本，避免使用master分支
- 定期更新到稳定版本