Linkerd-cni与nativeSidecar兼容性问题分析及解决方案

2025-05-21 11:43:44作者：齐添朝

项目地址：https://gitcode.com/gh_mirrors/co/conduit

问题背景

在Kubernetes环境中使用Linkerd服务网格时，当启用nativeSidecar特性并配合linkerd-cni插件使用时，出现了控制平面组件无法正常启动的问题。具体表现为proxy-injector、identity和destination等关键组件一直处于Init阶段，无法完成初始化。

问题现象

从日志中可以观察到，所有受影响的Pod都卡在Init阶段，并显示网络设置失败的错误信息。错误明确指出了linkerd-cni插件在添加网络配置时返回了127退出码，表明执行过程中遇到了问题。

环境配置

Kubernetes版本：EKS 1.31
Linkerd版本：企业版2.15.4
Linkerd-cni版本：30.12.2
Linkerd-cni镜像版本：v1.5.2
启用了nativeSidecar特性

根本原因分析

经过深入排查，发现问题源于linkerd-cni插件与网络工具的交互方式。在默认配置下，linkerd-cni使用特定的网络模式，这种模式与nativeSidecar特性存在兼容性问题。当两者同时启用时，会导致网络配置失败，进而阻止Pod的正常启动。

解决方案

通过修改linkerd-cni的配置参数，将网络模式设置为"plain"模式，可以解决此兼容性问题：

networkMode: plain

这个配置变更使得linkerd-cni使用更基础的网络规则设置方式，避免了与nativeSidecar特性的冲突。

实施建议

对于计划使用nativeSidecar特性的用户，建议在部署linkerd-cni时预先配置networkMode参数
对于已经遇到此问题的环境，可以通过以下步骤修复：
- 更新linkerd-cni的helm values配置
- 重新部署linkerd-cni组件
- 删除并重建受影响的控制平面Pod