RR调试器中的死锁问题分析与解决方案

2025-05-24 00:58:05作者：农烁颖Land

Record and Replay Framework

项目地址：https://gitcode.com/gh_mirrors/rr/rr

问题背景

在RR调试器（一个用于记录和重放程序执行的工具）的最新版本中，开发人员发现了一个在记录Ruby测试套件时能够可靠触发的死锁问题。该问题发生在infallible_munmap_syscall_if_alive函数中，导致调试器进程无限期地阻塞在waitid系统调用上。

问题现象

当RR调试器尝试记录Ruby测试套件时，会出现以下情况：

RR进程阻塞在waitid(P_PID, pid)调用上
被等待的进程实际上处于ptrace停止状态
该进程正在执行munmap系统调用
系统调用已完成，但内核将进程置于ptrace停止状态后，waitid调用却未收到通知

技术分析

通过深入分析，我们发现问题的根源在于RR调试器内部信号处理机制与进程状态管理的复杂交互。具体表现为：

信号处理循环：当RR尝试使用一个线程来执行munmap系统调用时，该线程可能处于特殊状态——它有一个待处理的SIGPWR信号（RR内部使用的SYSCALLBUF_DESCHED_SIGNAL）。
信号重入问题：每当线程被恢复执行时，内核会立即因待处理信号而再次停止它。同时，由于线程被停止，会触发上下文切换事件，导致新的SIGPWR信号被生成并排队。
状态不一致：线程被标记为"stopped"，但实际上它仍处于系统调用缓冲区区域，并且反调度信号仍处于激活状态。

根本原因

问题的核心在于RR调试器在选择线程来执行地址空间清理操作时，没有充分考虑线程的完整状态。具体来说：

线程在执行缓冲系统调用时被信号中断
信号被暂存，同时反调度信号被激活
系统调用因中断而返回EINTR，需要重新执行
在重新执行期间，线程被标记为停止状态
此时执行execve的子进程错误地选择了这个线程来清理地址空间

解决方案

经过深入研究，我们提出了以下综合解决方案：

状态检查增强：在选择线程执行清理操作前，增加对线程状态的严格检查，确保它不处于特殊信号处理状态。
信号管理改进：在AutoRemoteSyscalls执行期间，临时禁用反调度信号，防止信号干扰远程系统调用执行。
清理时机优化：将地址空间清理操作推迟到更合适的时机执行，确保线程处于更可控的状态。

实现细节

解决方案的关键实现点包括：

在Task::post_exec中增加对stashed_signals_blocking_more_signals状态的检查
修改AutoRemoteSyscalls构造函数，在处理远程系统调用时管理信号状态
重构地址空间清理逻辑，使其能够在更安全的上下文中执行

验证与测试

为确保修复的有效性，我们：

创建了能够可靠复现问题的测试用例
使用ftrace等内核跟踪工具验证了问题场景
通过长时间运行测试验证修复的稳定性
确保修复不会引入新的死锁或竞态条件

总结

这个案例展示了在复杂调试系统中处理信号和进程状态的挑战。通过深入分析内核行为、RR内部状态机以及它们之间的交互，我们不仅解决了特定的死锁问题，还增强了系统的整体鲁棒性。这次修复也为RR调试器处理类似边缘情况提供了有价值的参考。

对于使用RR调试器的开发者来说，理解这些底层机制有助于更好地诊断和解决调试过程中遇到的问题，特别是在处理多线程应用程序和信号密集型场景时。

Record and Replay Framework

项目地址：https://gitcode.com/gh_mirrors/rr/rr

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。