BPFtrace项目中关于BPF ABBA死锁问题的分析与解决方案

2025-05-25 11:06:23作者：董宙帆

High-level tracing language for Linux eBPF

项目地址：https://gitcode.com/gh_mirrors/bp/bpftrace

BPFtrace作为一款强大的Linux内核动态追踪工具，在性能分析和故障排查中发挥着重要作用。然而，近期发现的一个与BPF哈希表访问相关的ABBA死锁问题，可能导致内核崩溃，这引起了开发者社区的高度关注。

问题背景

该问题最初是通过一个bpftrace脚本发现的，当kfunc附加在与访问BPF_MAP_TYPE_HASH相同的路径上时，会在内核中创建ABBA死锁情况。典型的触发场景包括：一个bpftrace脚本在queued_spin_lock_slowpath函数上附加kfunc探针，同时另一个BPF程序在不同的CPU上访问相同的哈希表映射。

技术细节分析

ABBA死锁是经典的死锁类型，当两个线程以相反顺序获取两个锁时就会发生。在这个特定案例中：

线程A获取锁A，然后尝试获取锁B
同时线程B获取锁B，然后尝试获取锁A
两个线程互相等待对方释放锁，导致死锁

在BPF上下文中，这种死锁特别危险，因为内核无法轻易检测或恢复，最终可能导致系统崩溃。从堆栈跟踪可以看出，问题涉及bpf_trampoline、spin_lock操作和哈希表更新等多个内核子系统。

内核修复方案

Linux内核社区已经提出了修复方案，主要思路是让BPF映射使用自己特有的、不可追踪的锁原语。这样BPF程序就不会调用内核的常规锁函数，从而消除在追踪这些函数时出现死锁的风险。该修复将包含在未来的内核版本中。

BPFtrace临时解决方案

在内核修复广泛部署前，BPFtrace项目提出了临时解决方案：

基于每CPU变量的防护机制：在函数块被调用时检查一个每CPU变量。如果已设置则提前退出（可选地增加错过计数器），否则设置变量、执行功能块，并在退出时清除。
选择性禁用高风险探针：检测脚本是否访问非每CPU映射类型，并相应阻止某些kfunc/kprobe的使用。

第一种方案虽然有效，但会对所有脚本带来性能开销；第二种方案则可能导致功能损失。开发者权衡后选择了更精细化的第一种方案实现。

技术考量

值得注意的是，内核的BPF锁变更并不能完全预防ABBA死锁，而是在获取锁失败后退出死锁状态。因此BPFtrace的防护机制与内核修复在性能影响上各有优劣：

BPFtrace的方案将整个脚本放在相同的递归预防域中
内核方案依赖新的BPF锁代码中的死锁检测

结论

这个问题展示了BPF技术在深入内核追踪时可能遇到的复杂交互问题。BPFtrace项目通过临时解决方案为使用者提供了过渡期的稳定性保障，而长期解决方案则依赖于内核层面的架构改进。对于BPFtrace用户来说，理解这些限制并合理设计追踪脚本至关重要，特别是在涉及锁操作和共享映射访问的场景中。

High-level tracing language for Linux eBPF

项目地址：https://gitcode.com/gh_mirrors/bp/bpftrace

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理