rr项目中共享库函数单步调试失效问题分析

2025-05-24 10:24:18作者：凌朦慧Richard

问题背景

在rr项目（一个用于记录和重放程序执行的调试工具）的最新版本中，开发人员发现了一个影响调试体验的重要问题：当尝试单步进入共享库中的函数时，调试器会直接运行整个程序直到结束，而不是按预期停在共享库函数的入口处。这个问题在rr 5.3.0版本中工作正常，但在最新版本中出现了异常行为。

通过一个简单的测试用例可以复现该问题：

在正常情况下，调试器应该停在共享库函数的入口处。但在问题版本中，调试器会直接运行整个程序直到退出。

通过代码bisect和日志分析，发现问题源于rr对动态链接器运行时解析函数_dl_runtime_resolve的补丁机制变更。具体来说：

在旧版本中，对_dl_runtime_resolve_fxsave、_dl_runtime_resolve_xsave和_dl_runtime_resolve_xsavec的补丁操作会失败，但被忽略，单步调试仍能正常工作。
在新版本中，补丁操作成功应用，但这破坏了GDB的特殊处理逻辑。GDB原本会检测动态符号解析代码并持续单步执行直到退出解析代码并到达被调用函数地址。
GDB通过svr4_in_dynsym_resolve_code()函数判断当前是否处于动态符号解析代码中，该函数会检查PC指针是否位于特定的内存区域（如解释器文本段或PLT段）。rr的补丁代码位于这些区域之外，导致GDB无法正确识别解析过程。

动态链接器运行时解析函数是glibc中负责在程序运行时解析动态符号的关键组件。rr为了正确记录和重放程序执行，需要对这些函数进行特殊处理：

经过讨论，开发团队提出了几种可能的解决方案：

修改单步调试行为：当GDB在调用rr注入的辅助函数时执行单步命令时，改为执行"step over"而非"step into"。这种方案需要rr记录补丁原因信息。
调整补丁位置：将解析函数的补丁代码放置在librrpage.so的PLT段中，利用间接跳转调用。这种方案可以保持代码位于GDB预期的内存区域内。
动态补丁管理：在VDSO被取消映射时，撤销对_dl_runtime_resolve*函数的补丁，避免潜在问题。

最终实现采用了间接跳转方案，通过32位相对地址跳转到rr页面的处理函数，既解决了调试问题，又保持了系统稳定性。