liburing项目中io_uring导致的系统冻结问题分析与修复

2025-06-26 13:48:51作者：滕妙奇

**liburing：释放现代I/O的强大魔力** liburing是专为高效I/O操作设计的库，它简化了Linux下的io_uring接口，让开发者无需深入内核细节即可利用先进的异步I/O能力。无论你的系统新旧，liburing都能通过其独立于特定内核版本的设计，让你轻松享受最新特性（当然受限于内核支持）。这不仅仅是技术堆砌——它解决了内存锁定限制问题，即便是普通用户也能通过适当配置突破束缚，尽管根用户天然无此顾虑。此外，liburing包含丰富的回归测试，确保性能与稳定性，但请注意，这些测试在较老内核上可能不完全兼容。构建liburing灵活简单，FFI（Foreign Function Interface）支持使其能融入多种编程语言环境。这一项目，以其LGPL/MIT双许可，为追求高性能I/O的应用打开了大门，是Jens Axboe的杰作，引领你进入高效率数据处理的新纪元。

近期在Linux内核的io_uring子系统中发现了一个严重的系统冻结问题，该问题在用户同时挂起多个使用libuv库的Neovim实例时会被触发。本文将深入分析该问题的成因、影响范围以及最终的解决方案。

问题现象

当用户在Arch Linux或Fedora Rawhide系统上运行两个或多个Neovim实例，并通过Ctrl+Z挂起这些进程时，整个系统会进入近乎完全冻结的状态。具体表现为：

通过排查发现，该问题与io_uring子系统密切相关。当通过以下任一方式禁用io_uring功能时，问题不再出现：

进一步分析表明，问题源于io_uring在进程退出时的资源清理机制。当多个使用io_uring的进程同时被挂起时，会导致工作队列(workqueue)的死锁情况。

io_uring是现代Linux提供的高性能异步I/O接口，libuv等I/O库会利用它来提升性能。在进程退出时，io_uring需要通过工作队列来异步清理资源。原始实现中使用了system_unbound_wq作为工作队列。

问题发生时，系统出现了以下依赖链：

这种循环依赖导致了系统级的死锁，特别是当多个进程同时触发io_uring清理时，问题更加明显。

内核开发者Jens Axboe提出了针对性的修复方案，主要改动包括：

这种隔离措施有效避免了工作队列资源的竞争和死锁可能。修复补丁已被合并到Linux 6.9-rc3及后续版本中，并会反向移植到稳定分支。

该问题影响所有使用io_uring的应用程序，当它们被批量挂起或终止时可能触发系统冻结。特别是：

对于无法立即升级内核的用户，可以采取以下临时解决方案：

长期解决方案是升级到包含修复补丁的Linux内核版本(6.9-rc3或更高版本)。

该案例展示了Linux内核异步I/O子系统的复杂性，也体现了开源社区快速响应和解决问题的效率。通过专用资源隔离来解决共享资源竞争问题，是系统编程中常见且有效的设计模式。

登录后查看全文