首页
/ Harvester项目中Kube-OVN与Canal CNI的iptables PREROUTING链冲突分析与解决方案

Harvester项目中Kube-OVN与Canal CNI的iptables PREROUTING链冲突分析与解决方案

2025-06-14 14:34:55作者:宣聪麟

在Kubernetes网络生态中,多CNI插件的共存往往会带来意料之外的网络规则冲突。本文将以Harvester项目(基于Rancher的云原生超融合基础设施)为例,深入分析Kube-OVN网络插件与Canal/Calico CNI在iptables PREROUTING链上的规则冲突问题,并探讨其技术解决方案。


问题现象与背景

当在Harvester集群(特别是v1.5.0版本)部署Kube-OVN v1.13.x时,运维人员观察到以下异常现象:

  1. 规则混乱:节点上iptables的PREROUTING链出现规则顺序频繁变动、规则重复插入等问题。初始正常规则应包含:

    -P PREROUTING ACCEPT
    -A PREROUTING -j cali-PREROUTING  # Calico规则
    -A PREROUTING -j KUBE-SERVICES    # kube-proxy规则
    -A PREROUTING -j CNI-HOSTPORT-DNAT
    

    但实际会出现大量重复的-j OVN-PREROUTING规则。

  2. 组件异常kube-ovn-cni Pod持续处于非就绪状态,日志显示其不断尝试删除和重建iptables规则:

    delete iptables rule by pos 3...
    failed to delete iptables PREROUTING rule: iptables: Index of deletion too big.
    
  3. 功能影响:推测该冲突会影响Kube-OVN的负载均衡功能、Kubernetes Service的正常工作以及hostPort功能。


技术根因分析

通过深入排查,发现问题的本质在于规则插入策略的竞争

  1. 优先级竞争
    Kube-OVN和Calico都试图将自己的规则插入到PREROUTING链的顶部位置(position 1),而kube-proxy的规则需要保持较低优先级。

  2. 规则管理缺陷
    Kube-OVN的规则协调逻辑存在两个关键缺陷:

    • 删除规则时依赖动态索引号,但索引会在删除操作后发生变化
    • 缺乏对现有规则的兼容性检查,导致重复插入
  3. 设计局限
    当前Kube-OVN的架构假设其作为唯一CNI运行,未充分考虑与Canal/Calico共存的场景。


解决方案设计

核心原则

  1. 规则优先级保障:确保OVN规则优先级高于kube-proxy但低于Calico
  2. 原子性操作:采用规则指纹比对而非索引号定位
  3. 幂等性处理:避免规则重复插入

具体实现

上游Kube-OVN项目通过以下改进解决问题:

  1. 规则匹配优化
    改用iptables-save获取完整规则快照,通过注释内容(comment)精准定位规则,而非依赖易变的索引号。

  2. 位置策略调整
    不再强制插入链首,而是:

    • 保留Calico规则在顶部
    • 将OVN规则插入到Calico之后、kube-proxy之前
  3. 错误处理增强
    对iptables操作添加重试机制和状态校验,避免因临时失败导致规则不一致。


验证与效果

该方案经测试验证具有以下改进:

  1. 规则稳定性
    PREROUTING链保持预期结构:

    -P PREROUTING ACCEPT
    -A PREROUTING -j cali-PREROUTING      # Calico(保持首位)
    -A PREROUTING -j OVN-PREROUTING       # Kube-OVN(固定第二位)
    -A PREROUTING -j KUBE-SERVICES        # kube-proxy
    -A PREROUTING -j CNI-HOSTPORT-DNAT
    
  2. 组件健康度
    kube-ovn-cni Pod可正常进入就绪状态,日志中不再出现规则操作错误。

  3. 功能兼容性
    负载均衡、Service和hostPort功能测试通过,与Calico网络策略无冲突。


经验总结

该案例为CNI插件开发提供了重要启示:

  1. 多CNI兼容性应作为基础设计考量,特别是对iptables等共享资源的管理
  2. 规则管理策略需采用声明式而非命令式,通过唯一标识(如注释)定位规则
  3. 位置敏感性规则应提供可配置的插入策略,而非硬编码位置

该修复已随Kube-OVN v1.13.13版本发布,为Harvester等需要多CNI共存的场景提供了稳定支持。未来建议CNI开发者通过Kubernetes Network Plumbing Working Group等渠道建立更完善的CNI交互规范。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
595
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K