Kube-vip项目中iptables规则持久化问题的分析与解决

2025-07-01 09:00:48作者：丁柯新Fawn

问题背景

在Kube-vip 0.8.4版本中，用户报告了一个关于iptables/nftables规则持久化的问题。当egress规则被删除后，某些规则仍然保留在系统中，这可能导致网络流量路由异常。该问题在Ubuntu 20.04系统和Kubernetes 1.29.x环境中被发现。

问题现象

通过日志分析发现，即使在服务删除后，以下iptables规则仍然存在：

-A KUBE-VIP-EGRESS -d 10.0.0.0/16 -m comment --comment "a3ViZS12aXAK=kube-vip-e2e-test" -j RETURN
-A KUBE-VIP-EGRESS -d 10.96.0.0/12 -m comment --comment "a3ViZS12aXAK=kube-vip-e2e-test" -j RETURN
-A KUBE-VIP-EGRESS -s 172.30.3.22/32 -m comment --comment "a3ViZS12aXAK=kube-vip-e2e-test" -j MARK --set-xmark 0x40/0x40

根本原因分析

经过深入调查，发现该问题由多个因素共同导致：

RBAC权限不足：Kube-vip服务账户缺少对kube-system命名空间中pods资源的list权限，这导致自动CIDR发现功能无法正常工作，进而回退到默认值。
规则更新机制缺陷：egress规则仅在leader选举时创建，而在其他情况下（如端点变更但leader未改变时）不会更新。
上下文管理问题：当Kube-vip pod终止时，端点监视未正确终止，导致egress规则未被清除。

解决方案

针对上述问题，开发团队提出了以下解决方案：

完善RBAC配置：需要为Kube-vip服务账户添加对kube-system命名空间的访问权限。具体配置如下：

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: kube-vip-role
  namespace: kube-system
rules:
- apiGroups: [""]
  resources: ["pods"]
  verbs: ["list"]

apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: kube-vip-rolebinding
  namespace: kube-system
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: Role
  name: kube-vip-role
subjects:
- kind: ServiceAccount
  name: kube-vip-serviceaccount
  namespace: test

改进规则管理逻辑：
- 确保egress规则在所有相关事件（不仅是leader选举）发生时都能正确更新
- 修复上下文管理问题，确保pod终止时能正确清理所有资源
环境变量处理优化：确保当自动发现失败时，系统能正确使用用户通过环境变量指定的CIDR范围（如EGRESS_PODCIDR和EGRESS_SERVICECIDR），而不是简单地回退到默认值。

测试验证

在修复过程中，测试团队发现了一些环境相关的问题：

Kind集群测试问题：
- 当并行运行多个集群时，可能会遇到文件描述符限制问题
- 解决方案是调整系统参数：
```
fs.file-max=500000
fs.inotify.max_user_watches = 2147483647
fs.inotify.max_user_instances = 8192
```
镜像加载时机：优化了测试流程，确保镜像只在集群完全启动后才加载，避免早期加载失败。