Cilium/pwru项目中BPF全局变量使用不当导致的内存竞争问题分析

2025-06-25 10:59:10作者：齐冠琰

在Cilium项目的pwru（Packet Where are you）工具中，开发人员发现了一个关于BPF全局变量使用不当导致的内存竞争问题。本文将深入分析该问题的技术背景、产生原因以及解决方案。

问题背景

pwru是一个基于eBPF技术的内核网络数据包追踪工具，它能够帮助开发者快速定位网络数据包在内核中的处理路径。在实现过程中，pwru需要输出sk_buff（套接字缓冲区）和skb_shared_info（共享信息结构）的详细信息。

在原始实现中，开发者使用了静态全局变量来存储临时数据：

static struct btf_ptr p = {};
static struct print_skb_value v = {};

这些变量被放置在.bss段中，在BPF程序中表现为全局变量。然而，这种实现方式存在严重问题：

在Linux内核中，BPF程序有以下特点：

pwru工具中用于输出skb和shinfo的函数set_skb_btf和set_shinfo_btf都使用了这种不安全的全局变量模式，这会导致：

正确的做法是使用BPF的per-CPU数组映射来替代全局变量：

实现上需要：

这种模式是BPF程序中处理并发数据的标准做法，能够有效避免多核环境下的数据竞争问题。

在BPF程序开发中，开发者必须特别注意并发安全问题。全局变量的使用需要格外谨慎，在多数情况下应该使用per-CPU的数据结构来替代。pwru工具的这个案例很好地展示了在多核环境下不正确使用全局变量可能导致的问题，以及正确的解决方案。

对于BPF开发者来说，理解这些并发编程的注意事项至关重要，特别是在开发网络诊断工具这类可能被频繁调用的BPF程序时。正确的并发处理不仅能保证程序的正确性，也能提高整体性能。

登录后查看全文