rCore-Tutorial-v3 内核栈回收机制分析与修复

2025-07-07 14:16:01作者：殷蕙予

在操作系统内核开发中，进程和线程的资源管理是一个关键问题。最近在 rCore-Tutorial-v3 项目中发现了一个关于内核栈回收的重要问题，这个问题可能导致内核在进程退出时出现未定义行为。

问题背景

在操作系统中，每个线程都有自己的内核栈，用于在内核态执行时保存调用栈信息。当线程退出时，需要正确回收这些内核栈资源以避免内存泄漏。然而，在 rCore-Tutorial-v3 的实现中发现了一个潜在的危险情况：

在主线程退出时，内核会调用 exit_current_and_run_next 函数。在这个函数中，当执行 process_inner.tasks.clear() 时，会触发当前任务内核栈的回收操作。问题在于，此时主线程仍然在使用这个内核栈执行后续代码，包括：

这意味着内核可能在回收当前正在使用的内核栈后继续使用它，这属于未定义行为(UB)，可能导致页面错误(Page Fault)或其他不可预知的问题。

通过添加调试打印和手动插入 sfence.vma 指令（用于强制刷新页表缓存）可以验证这个问题。当强制同步后，系统确实会卡死在这个位置，证实了问题的存在。

这个问题的根本原因在于资源回收的时机不当。内核栈的回收发生在它还被使用的时候，违反了资源管理的基本原则。

针对这个问题，项目维护者提出了两种可能的解决方案：

引用计数方案：
- 在 ProcessControlBlockInner 结构中添加对当前使用中的内核栈的引用（Arc<KernelStack>）
- 让父进程在 sys_waitpid 系统调用中负责最终回收这个内核栈
- 这种方案类似于项目中处理非主线程退出时的做法，即让主线程帮助释放内核栈
简化方案：
- 在调用 tasks.clear() 时跳过主线程的内核栈回收
- 因为此时只剩下主线程的内核栈需要回收，可以单独处理
- 这种方案实现更简单直接