Linkerd2中跳过代理端口导致Tap功能失效的问题分析

2025-05-21 12:02:30作者：田桥桑Industrious

问题现象

在Linkerd2服务网格环境中，当为Pod配置了config.linkerd.io/skip-inbound-ports或config.linkerd.io/skip-outbound-ports注解时，会导致Linkerd的Tap监控功能完全失效。即使跳过的端口与Tap监控的目标端口无关，也会出现"no_tls_from_remote"或身份验证相关的错误。

技术背景

Linkerd2的Tap功能是其服务网格可观测性的重要组成部分，它允许管理员实时查看服务间的通信流量。Tap功能依赖于Linkerd代理(proxy)来拦截和监控流量。当流量绕过代理时，Tap功能自然无法工作。

问题根源

经过Linkerd开发团队分析，这个问题源于Linkerd-CNI组件的一个实现缺陷：

默认端口处理不当：Linkerd代理需要保留4190和4191端口用于Tap功能通信，但当前CNI实现在处理skip-inbound-ports注解时会完全替换默认的跳过端口列表，而不是追加到默认列表。
TLS连接问题：当Tap控制器尝试通过4190端口连接目标Pod时，由于该端口被错误地排除在代理处理之外，导致TLS握手失败，出现"no_tls_from_remote"错误。
身份验证中断：在某些配置下，还会出现身份验证错误，因为代理无法正确验证Tap控制器的身份。

临时解决方案

在官方修复发布前，可以通过以下方式临时解决问题：

在skip-inbound-ports注解中显式包含Tap功能所需的端口：

config.linkerd.io/skip-inbound-ports: "4191,4190,9001"

确保注解中的端口列表包含所有需要跳过的端口，同时保留4190和4191。

技术影响

这个问题会影响以下场景：

需要跳过特定端口监控的同时又需要使用Tap功能的场景
混合使用跳过端口和Tap监控的复杂部署环境
需要同时调试跳过端口服务和监控其他服务流量的场景

最佳实践建议

谨慎使用跳过端口功能，明确了解其对监控功能的影响
在必须跳过某些端口时，确保Tap功能所需端口(4190,4191)始终保留
关注Linkerd的版本更新，及时应用相关修复

总结

Linkerd2的这个Bug展示了服务网格中流量拦截与监控功能的紧密耦合关系。开发团队已经确认问题并将发布修复。在此之前，管理员可以通过显式包含Tap端口的方式临时解决问题。这个案例也提醒我们，在使用高级网络功能时，需要充分理解各组件间的交互关系。

linkerd2

Ultralight, security-first service mesh for Kubernetes. Main repo for Linkerd 2.x.

项目地址：https://gitcode.com/gh_mirrors/li/linkerd2

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理