dperf性能测试中服务器无响应的排查思路

2025-06-07 13:07:20作者：卓炯娓

问题现象描述

在使用dperf进行网络性能测试时，发现一个典型现象：客户端（client）发送了大量TCP请求，但服务端（server）的响应报文数量异常稀少。具体表现为：

客户端统计显示发送了约10万次请求（cc=10k配置）
服务端统计仅收到少量请求
中间路由器抓包显示服务端回复报文比例极低

环境配置要点

测试环境采用典型的NAT穿透架构：

客户端通过192.168.168.168（LAN口）连接路由器
路由器做SNAT转换后以10.103.219.91（WAN口）访问服务端
服务端直接绑定10.103.219.98

可能原因分析

1. NAT设备性能瓶颈

当使用家用路由器等设备做NAT转换时，其会话表（conntrack）处理能力可能成为瓶颈。特别是：

高并发连接（cc=10k）会快速耗尽NAT设备的状态表
短连接+快速重传会导致NAT设备来不及清理旧会话

2. 协议栈参数不匹配

dperf默认使用TCP协议，在跨NAT场景下需要注意：

keepalive时间（50ms）可能过短，导致NAT设备过早回收会话
没有正确设置TCP_TIMEWAIT复用参数

3. 服务端资源限制

虽然dperf是用户态协议栈，但仍需检查：

CPU核心绑定是否合理（server配置了2个CPU）
大页内存配置是否充足（socket_mem=6144）

专家建议的排查方法

阶段一：基础验证

降低负载测试

cc 1                # 将并发连接降为1
keepalive 1s       # 增大保活间隔

观察是否出现基本通信

替换服务端软件
使用nginx等成熟Web服务器作为对照，确认是否为dperf服务端实现问题
改用UDP协议
UDP没有连接状态，可排除NAT会话表的影响

阶段二：深度排查

NAT设备监控
- 检查conntrack表计数：cat /proc/sys/net/netfilter/nf_conntrack_count
- 监控丢包统计：conntrack -S
双向抓包分析
- 客户端侧抓取真实IP（192.168.168.99）的流量
- 服务端侧抓取物理网卡流量
  比对SYN和SYN-ACK的对应关系

调整内核参数

echo 1000000 > /proc/sys/net/netfilter/nf_conntrack_max  # 增大NAT会话表
echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout           # 缩短TIMEWAIT时间

典型解决方案

对于生产环境，建议采用以下架构优化：

旁路部署：客户端和服务端直连，避免NAT设备
专业网关：使用支持DPDK的网关设备处理NAT
协议优化：
- 适当增大keepalive间隔（建议≥200ms）
- 启用TCP快速打开（TFO）

通过系统化的排查和优化，可以充分发挥dperf在高性能网络测试中的潜力。对于复杂网络环境，建议从最小可验证案例开始，逐步增加复杂度定位问题。

dperf

dperf is a 100Gbps network load tester.

项目地址：https://gitcode.com/gh_mirrors/dp/dperf

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

114

140

dperf性能测试中服务器无响应的排查思路

问题现象描述

环境配置要点

可能原因分析

1. NAT设备性能瓶颈

2. 协议栈参数不匹配

3. 服务端资源限制

专家建议的排查方法

阶段一：基础验证

阶段二：深度排查

典型解决方案

热门内容推荐

最新内容推荐

项目优选

dperf性能测试中服务器无响应的排查思路

问题现象描述

环境配置要点

可能原因分析

1. NAT设备性能瓶颈

2. 协议栈参数不匹配

3. 服务端资源限制

专家建议的排查方法

阶段一：基础验证

阶段二：深度排查

典型解决方案

相关内容推荐

热门内容推荐

最新内容推荐

项目优选