dperf多核性能优化：解决CPS模式下的RSS算法问题

2025-06-08 07:45:11作者：郜逊炳

dperf is a 100Gbps network load tester.

项目地址：https://gitcode.com/gh_mirrors/dp/dperf

多核性能异常现象分析

在使用dperf进行网络性能测试时，许多用户会遇到一个典型问题：在单核模式下能够达到320K CPS（每秒连接数）的高性能，但在启用多核模式后却出现严重错误，性能反而大幅下降。这种异常现象通常与RSS（接收端缩放）算法的配置不当有关。

硬件环境关键因素

从实际案例来看，这种问题常出现在特定硬件配置环境下：

使用海光Hygon C86 7380 32核处理器（共128个逻辑CPU）
搭配Intel XL710 40G网卡
NUMA架构服务器（8个NUMA节点）
大页内存配置（64个1GB大页）

RSS算法的影响机制

RSS是现代网卡实现多队列的核心技术，它通过哈希算法将网络流量分配到不同CPU核心处理。但在CPS（每秒新建连接数）测试场景下，传统的L3L4 RSS算法可能导致：

连接分布不均：新建连接可能被集中分配到少数队列
锁竞争加剧：多核间同步开销增加
缓存失效：频繁的核间切换导致缓存命中率下降

优化方案与实践建议

针对dperf的多核CPS性能问题，推荐以下优化措施：

服务器IP配置：确保服务器IP数量与使用的CPU核心数一致，这是实现负载均衡的基础
RSS模式选择：
- 对于吞吐量测试，L3L4 RSS算法通常表现良好
- 对于CPS测试，建议不配置RSS或使用"auto"模式
- 避免在多核CPS测试中强制指定L3L4 RSS
NUMA亲和性优化：
- 绑定进程到特定NUMA节点
- 确保网卡与CPU处于同一NUMA域
- 使用正确的CPU核心范围（如示例中的80-87）
内存配置：
- 增加大页内存数量（当前配置52/64可能不足）
- 检查大页内存是否均匀分布在NUMA节点
参数调优：
- 调整tx_burst值（当前128）
- 监控并优化socket_mem配置（当前4096）

性能对比与预期

经过正确配置后，多核dperf应当展现出：

接近线性的性能扩展（核心数增加，性能同比提升）
稳定的连接建立速率
显著高于单核模式的总吞吐量

总结

dperf作为高性能网络测试工具，其多核性能极大依赖于正确的RSS配置和系统调优。理解底层硬件架构与网络协议栈的交互机制，是解决此类性能问题的关键。通过针对性的参数调整和配置优化，用户可以充分发挥多核服务器的性能潜力，获得理想的测试结果。

dperf is a 100Gbps network load tester.

项目地址：https://gitcode.com/gh_mirrors/dp/dperf

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解