liburing项目中proxy在高并发Ping-Pong负载下的崩溃问题分析

2025-06-26 22:37:09作者：冯爽妲Honey

**liburing：释放现代I/O的强大魔力** liburing是专为高效I/O操作设计的库，它简化了Linux下的io_uring接口，让开发者无需深入内核细节即可利用先进的异步I/O能力。无论你的系统新旧，liburing都能通过其独立于特定内核版本的设计，让你轻松享受最新特性（当然受限于内核支持）。这不仅仅是技术堆砌——它解决了内存锁定限制问题，即便是普通用户也能通过适当配置突破束缚，尽管根用户天然无此顾虑。此外，liburing包含丰富的回归测试，确保性能与稳定性，但请注意，这些测试在较老内核上可能不完全兼容。构建liburing灵活简单，FFI（Foreign Function Interface）支持使其能融入多种编程语言环境。这一项目，以其LGPL/MIT双许可，为追求高性能I/O的应用打开了大门，是Jens Axboe的杰作，引领你进入高效率数据处理的新纪元。

项目地址：https://gitcode.com/gh_mirrors/li/liburing

问题背景

在liburing项目的proxy示例程序中，当处理高并发的Ping-Pong类型网络请求时，会出现崩溃问题。具体表现为：当通过memtier_benchmark工具向proxy发送10个Ping请求时，proxy服务会意外崩溃，并抛出"Assertion `!cd->pending_recv' failed"的错误。

问题复现步骤

首先启动一个Valkey服务作为上游后端
直接对Valkey服务进行10个请求的基准测试，确认服务正常运行
启动proxy程序，配置为最基本的转发模式
再次运行基准测试，这次针对proxy服务

问题现象

在proxy运行过程中，会出现以下异常现象：

客户端连接被意外断开
proxy程序崩溃，抛出断言失败错误
日志中显示大量"add bid..."消息，远超过实际请求数量

技术分析

这个问题的根本原因在于proxy程序中的接收逻辑处理不当。具体来说：

断言失败：__submit_receive函数中的!cd->pending_recv断言失败，表明在接收数据时存在状态不一致问题。
缓冲区管理问题：日志中显示大量"add bid..."消息，表明缓冲区池初始化存在问题，可能与实际请求数量不匹配。
并发处理缺陷：在高并发Ping-Pong场景下，proxy未能正确处理多个并发的接收请求，导致状态混乱。

解决方案

项目维护者通过提交的修复代码解决了这个问题。主要改进包括：

修正了接收逻辑的状态管理，确保pending_recv标志的正确设置和清除。
优化了缓冲区池的初始化逻辑，使其与实际需求更加匹配。
增强了并发请求处理的健壮性，确保在高负载下也能稳定运行。

验证结果

经过修复后，proxy程序能够正确处理memtier_benchmark工具发送的10个Ping请求测试，不再出现崩溃或连接断开的情况。缓冲区管理也更加合理，不再出现大量不必要的初始化日志。

技术启示

这个问题展示了在网络编程中几个关键点：

状态管理：在网络代理等中间件开发中，必须严格管理连接状态，特别是像pending_recv这样的标志位。
资源初始化：缓冲区等资源的初始化应该按需进行，避免不必要的开销。
边界条件测试：即使是看似简单的Ping-Pong测试，也可能暴露出程序中的深层次问题，特别是在并发场景下。

这个案例也体现了liburing社区对问题快速响应和解决的能力，展示了开源项目的协作优势。

liburing