liburing项目中sendmsg_zc与UDP GSO的CQE溢出问题分析

2025-06-26 21:10:49作者：庞眉杨Will

**liburing：释放现代I/O的强大魔力** liburing是专为高效I/O操作设计的库，它简化了Linux下的io_uring接口，让开发者无需深入内核细节即可利用先进的异步I/O能力。无论你的系统新旧，liburing都能通过其独立于特定内核版本的设计，让你轻松享受最新特性（当然受限于内核支持）。这不仅仅是技术堆砌——它解决了内存锁定限制问题，即便是普通用户也能通过适当配置突破束缚，尽管根用户天然无此顾虑。此外，liburing包含丰富的回归测试，确保性能与稳定性，但请注意，这些测试在较老内核上可能不完全兼容。构建liburing灵活简单，FFI（Foreign Function Interface）支持使其能融入多种编程语言环境。这一项目，以其LGPL/MIT双许可，为追求高性能I/O的应用打开了大门，是Jens Axboe的杰作，引领你进入高效率数据处理的新纪元。

项目地址：https://gitcode.com/gh_mirrors/li/liburing

在Linux高性能IO框架liburing的使用过程中，开发者发现当结合使用sendmsg_zc（零拷贝发送）和UDP GSO（Generic Segmentation Offload）功能时，会出现CQE（Completion Queue Entry）队列溢出的现象。本文将从技术原理、问题表现和解决方案三个维度进行深入分析。

问题背景

UDP GSO是一种网络卸载技术，它允许内核将大数据包自动分割成适合网络MTU的小包，从而减轻应用层负担。而sendmsg_zc则是io_uring提供的零拷贝发送接口，可以避免数据在用户态和内核态之间的复制开销。理论上这两者的结合应该能提升网络吞吐量，但实际测试中却发现性能反而不如传统拷贝方式。

技术原理剖析

CQE机制的工作流程

在io_uring的架构中，CQE用于通知用户空间操作完成状态。每个SQE（Submission Queue Entry）提交后，最终会产生一个或多个CQE。当CQ环缓冲区不足以存放新产生的CQE时，就会触发溢出处理流程：

__io_cqring_overflow_flush：在提交新SQE前强制刷新溢出队列
__io_submit_flush_completions：在发出SQE前处理溢出完成项

问题根源

通过分析发现，sendmsg_zc操作会产生比预期更多的CQE。这是因为：

每个sendmsg_zc操作默认会产生2个CQE（基础完成通知+零拷贝释放通知）
当启用UDP GSO时，由于GSO的自动分片特性，可能进一步增加通知数量
开发者未正确处理IORING_CQE_F_MORE标志位，导致未能准确统计实际产生的CQE数量

解决方案

正确的处理方式应该包含以下要点：

适当增大CQ环缓冲区大小：根据预估的CQE产生速率设置足够大的环缓冲区
完整处理所有CQE标志：特别要注意检查IORING_CQE_F_MORE标志位
分离收发环形队列：如示例中将接收和发送分别使用不同的ring，避免相互干扰

核心代码修正点在于需要正确统计带有IORING_CQE_F_MORE标志的CQE：

if (!(cqe->flags & IORING_CQE_F_NOTIF)) {
    if (cqe->flags & IORING_CQE_F_MORE)
        nr_cqes++;
}

最佳实践建议

在使用高级特性（如zc、GSO）时，务必仔细阅读相关文档说明
生产环境中建议进行充分的压力测试，验证CQ环缓冲区大小是否足够
考虑使用IORING_SETUP_COOP_TASKRUN等优化标志减少上下文切换
对于高性能场景，建议注册文件描述符（io_uring_register_files）减少开销

通过以上分析和解决方案，开发者可以充分发挥io_uring在高性能网络编程中的潜力，实现接近线速的UDP数据包收发能力。

liburing

项目地址：https://gitcode.com/gh_mirrors/li/liburing

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。