SPDK项目中vhost-blk多线程轮询组支持导致的性能下降问题分析

2025-06-25 20:54:49作者：尤峻淳Whitney

问题背景

在SPDK存储性能开发套件的24.01到24.05版本升级过程中，开发团队发现了一个显著的性能退化问题。具体表现为在使用blk lvol vhost测试场景下，IOPS性能下降了约18%，同时带宽和延迟指标也出现了明显恶化。

性能指标对比

测试环境配置为10个CPU核心和20个虚拟机，使用4KB随机读取模式，队列深度为128。性能数据对比如下：

24.05版本：
- IOPS：12,025,425.08
- 带宽：48,101,785.00字节/秒
- 平均延迟：422.46毫秒
回退修改后：
- IOPS：14,827,449.27（提升23.3%）
- 带宽：59,309,881.67字节/秒
- 平均延迟：344.49毫秒

问题定位

经过深入分析，开发团队确认性能下降的根本原因是提交的"vhost-blk: enable multiple thread poll group support"补丁。该补丁原本旨在为vhost-blk提供多线程轮询组支持，但在特定配置下反而导致了性能退化。

技术细节分析

在SPDK架构中，vhost-blk是一种重要的虚拟化存储后端实现。该补丁的主要变更包括：

为每个vhost-blk控制器创建多个轮询组
采用轮询方式将I/O队列分配给不同的轮询组
增加了线程间通信和同步的开销

在测试配置中，每个虚拟机分配了2个vCPU，而整个系统使用了10个物理CPU核心来运行20个虚拟机。这种高密度虚拟化环境下，新增的轮询组和线程调度机制反而增加了上下文切换和锁竞争的开销。

解决方案

经过社区讨论和技术验证，最终决定回退相关补丁。回退过程需要：

首先回退一个依赖补丁
然后回退主补丁中的特定修改行
最后完整回退主补丁

回退后的测试结果显示：

IOPS从14,628,260.166提升到16,622,479.340（13.62%提升）
带宽从58,513,125.333字节提升到66,490,002.000字节
平均延迟从358.344毫秒降低到308.076毫秒

经验总结

这一事件为SPDK社区提供了宝贵的经验：

性能优化补丁需要针对不同工作负载进行充分验证
高密度虚拟化场景对线程调度机制特别敏感
新功能引入时需要考虑与现有配置的兼容性
完善的性能回归测试体系至关重要

未来SPDK社区计划重新设计多线程轮询组支持功能，确保在各种工作负载下都能提供稳定的性能表现。

spdk

Storage Performance Development Kit

项目地址：https://gitcode.com/gh_mirrors/sp/spdk

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

473

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

272