Harvester项目中的IP地址耗尽问题分析与解决方案

2025-06-14 22:56:21作者：仰钰奇

问题背景

在Harvester v1.4.1版本中，用户报告了一个严重的网络问题：当Harvester集群节点重启后，10.52.x.x地址空间中的IP地址会被耗尽，导致容器工作负载无法正常调度。这个问题会直接影响生产环境的稳定性，造成服务中断。

问题现象

用户在使用Harvester集群时，如果执行关机再重启操作，集群节点会出现IP地址耗尽的情况。具体表现为：

工作负载无法正常调度
检查/var/lib/cni/networks目录会发现IP地址被锁定且未被释放
需要手动干预才能恢复服务

根本原因分析

经过技术团队深入调查，发现问题并非最初怀疑的iptables桥接转发内核参数设置导致。实际上，问题根源在于containerd和CNI组件在硬重启后无法正确协调现有的IP地址分配。

具体来说，当节点非正常关机或重启时，CNI插件未能正确清理之前分配的IP地址记录。这些"僵尸"IP地址仍然被系统视为已占用状态，导致新启动的容器无法获取可用IP地址。

解决方案

Harvester技术团队提供了两种解决方案：

1. 临时解决方案（手动干预）

对于已经出现问题的节点，可以执行以下步骤恢复：

停止RKE2服务
删除/var/lib/cni/networks/k8s-pod-network目录下的锁定文件
重新启动RKE2服务

2. 永久解决方案（系统修复）

技术团队通过PR #952在Harvester安装程序中增加了修复措施，确保在RKE2引导前清理残留的IP地址文件。具体实现是在系统初始化阶段自动清理CNI网络目录。

用户也可以通过添加以下cloud-init配置来自行修复：

name: "reset container dhcp leases"
stages:
   initramfs:
     - command:
       - rm -rf /var/lib/cni/networks/k8s-pod-network

技术细节

这个问题与Kubernetes网络插件的工作机制密切相关。在正常情况下，CNI插件负责管理Pod网络和IP地址分配。当Pod被删除时，相应的IP地址应该被释放。但在非正常关机情况下，这一清理过程可能无法完成。

Harvester使用的RKE2发行版默认使用Canal网络插件，该插件将IP分配信息持久化存储在/var/lib/cni/networks目录中。系统重启时，如果这些文件未被正确清理，就会导致IP地址无法被重新分配。

验证情况

该修复已在Harvester v1.5-a1ce6a16-head版本中验证通过。测试团队在2节点QEMU/KVM环境中重现并确认了修复效果。测试方案包括模拟节点非正常重启场景，验证IP地址是否能被正确回收和重新分配。

总结

IP地址耗尽问题是容器化环境中常见的一类网络问题。Harvester团队通过深入分析问题根源，不仅提供了临时解决方案，还在系统层面实现了永久修复。这体现了Harvester项目对生产环境稳定性的重视，以及快速响应和解决用户问题的能力。

对于使用较旧版本的用户，建议尽快升级到包含此修复的版本，或者按照文中提供的方案进行配置调整，以避免潜在的生产环境中断风险。

登录后查看全文

Harvester项目中的IP地址耗尽问题分析与解决方案

问题背景

问题现象

根本原因分析

解决方案

1. 临时解决方案（手动干预）

2. 永久解决方案（系统修复）

技术细节

验证情况

总结

热门内容推荐

最新内容推荐

项目优选

Harvester项目中的IP地址耗尽问题分析与解决方案

问题背景

问题现象

根本原因分析

解决方案

1. 临时解决方案（手动干预）

2. 永久解决方案（系统修复）

技术细节

验证情况

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选