DeepFlow项目中multus CNI环境下NodeNIC采集异常问题分析

2025-06-25 23:20:45作者：史锋燃Gardner

Application Observability using eBPF

项目地址：https://gitcode.com/gh_mirrors/de/deepflow

问题背景

在Kubernetes环境中使用multus CNI配合whereabouts IPAM插件时，DeepFlow Agent对节点网卡(Node NIC)的流量采集出现了异常现象。具体表现为Node NIC的tap_side被错误标记为"Rest"，而预期应为"ClientNode"或"ServerNode"。

环境配置

该环境采用以下技术栈：

Kubernetes网络方案：multus CNI + whereabouts IPAM
网络拓扑：Pod间通过HTTP1协议通信
报文路径：Client Pod → Client Pod NIC → br0 → Client Node NIC → 外部网络 → Server Node NIC → br0 → Server Pod NIC → Server Pod

问题现象

在流量采集过程中，观察到以下异常：

Pod NIC采集正常：
- tap_side正确标记为Client/Server
- directions字段显示正确的流量方向
Node NIC采集异常：
- tap_side被标记为Rest
- directions字段显示为[None, None]
- is_l2_end和is_l3_end标志位设置不正确

根本原因分析

经过深入排查，发现问题源于以下因素：

资源标识混乱：DeepFlow控制器数据库中出现了重复的Kubernetes集群domain记录，导致Agent无法正确识别节点网卡所属的集群。
MAC地址匹配异常：Node NIC的MAC地址与报文中实际MAC不匹配，尽管已设置ignore_l2_end和ignore_mac参数，但仍影响了后续处理流程。
集群ID不一致：Agent配置的pod_cluster_id与资源实际的pod_cluster_id不一致，导致资源关联错误。

解决方案

清理重复domain：
- 使用deepflow-ctl domain list检查当前环境中的云平台情况
- 删除重复的Kubernetes集群domain记录
统一集群标识：
- 确保Agent配置中的kubernetes-cluster-id与实际集群ID一致
- 验证deepflow-agent的values.yaml配置
配置优化：
- 确认flow_log.processors.conntrack.flow_generation配置正确
- 检查cloud_traffic_ignore_mac和ignore_l2_end参数设置

验证结果

实施上述解决方案后：

Node NIC的tap_side正确显示为ClientNode/ServerNode
directions字段正确反映流量方向
端到端流量追踪功能恢复正常

经验总结

在DeepFlow部署过程中，特别是使用复杂CNI插件时，需要注意：

确保Kubernetes集群标识的唯一性和一致性
对于非标准网络拓扑，需要仔细验证流量采集点的配置
定期检查控制器数据库中的资源记录，避免重复或冲突
充分利用deepflow-ctl工具进行配置验证和问题排查

该案例展示了DeepFlow在复杂CNI环境下的适应能力，同时也提醒我们在部署时需要关注集群元数据的一致性管理。

Application Observability using eBPF

项目地址：https://gitcode.com/gh_mirrors/de/deepflow

登录后查看全文

最新内容推荐

VSdebugChkMatch.exe：专业PDB签名匹配工具全面解析与使用指南 Solidcam后处理文件下载与使用完全指南：提升CNC编程效率的必备资源中兴e读zedx.zed文档阅读器V4.11轻量版：专业通信设备文档阅读解决方案深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器 PhysioNet医学研究数据库：临床数据分析与生物信号处理的权威资源指南 STM32到GD32项目移植完全指南：从兼容性到实战技巧 Python开发者的macOS终极指南：VSCode安装配置全攻略 PCDViewer-4.9.0-Ubuntu20.04：专业点云可视化与编辑工具全面解析基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器昆仑通态MCGS与台达VFD-M变频器通讯程序详解：工业自动化控制完美解决方案

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息