DPVS FullNAT模式下高带宽场景的Timeout问题分析与解决思路

2025-06-26 07:17:50作者：廉彬冶Miranda

DPVS is a high performance Layer-4 load balancer based on DPDK.

项目地址：https://gitcode.com/gh_mirrors/dp/dpvs

问题现象描述

在使用DPVS的FullNAT模式进行高带宽负载均衡测试时，当网络带宽超过5Gbps后，系统开始出现TCP连接超时(timeout)现象。这一现象具有以下特征：

带宽阈值特性：当测试带宽超过5Gbps（约为10Gbps网卡的一半带宽）时，问题开始出现，且超时数量与超出带宽量成正比。
RS数量相关性：当后端仅部署一个真实服务器(RS)时，系统能够基本跑满带宽而不出现超时；但当部署两个或更多RS时，问题就会显现。
抓包分析结果：通过抓包分析发现，RS发送给客户端的TCP数据包存在大量异常重传，且重传间隔时间较长。特别值得注意的是，某些TCP数据包的序列号(SEQ)出现异常，导致后续数据包被错误识别为重传包。

技术背景分析

FullNAT是DPVS支持的一种重要负载均衡模式，它同时修改数据包的源IP和目标IP地址，解决了传统NAT模式中RS需要配置回程路由的问题。在这种模式下：

连接跟踪机制：DPVS需要维护完整的连接状态表，记录每个连接的四元组转换关系。
TCP序列号处理：FullNAT模式会对TCP序列号进行必要的调整，以确保端到端的通信一致性。
流量分发机制：DPVS根据配置的调度算法将流量分发到多个后端RS，理论上RS数量越多，系统整体吞吐量应该越高。

可能原因分析

基于问题现象和技术背景，我们分析可能的原因包括：

连接重用问题：在高并发场景下，DPVS可能快速重用TCP连接，而如果后端RS不能及时释放连接，可能导致连接状态不一致。
序列号处理异常：虽然FullNAT会调整TCP序列号，但在高负载情况下可能出现处理异常，导致序列号不连续。
网卡配置问题：最初启用的redirect模式虽然解决了TCP建联问题，但可能引入额外的性能开销。
多RS协同问题：单个RS正常而多个RS异常的现象，可能表明流量在多RS间分发时存在某种同步或状态维护问题。

排查与解决方案

针对上述分析，建议采取以下排查和解决步骤：

关闭redirect模式：通过配置signature模式替代redirect，减少性能开销。确认ixgbe网卡支持ipv4 perfect匹配，确保TCP建联正常。
连接状态监控：检查DPVS连接表状态，确认是否存在连接泄漏或异常重用情况。可以通过dpip工具查看连接统计信息。
精细化抓包分析：在客户端、DPVS和RS端同时抓包，对比TCP序列号变化，精确定位序列号异常出现的环节。
RS配置检查：验证后端RS的TCP协议栈配置，特别是与连接重用和快速回收相关的参数（如tcp_tw_reuse、tcp_tw_recycle等）。
性能调优：根据实际硬件配置调整DPVS的工作线程数量、队列大小等参数，确保能够充分发挥10Gbps网卡性能。
版本验证：确认使用的DPVS版本是否存在已知的FullNAT模式相关问题，考虑升级到最新稳定版本。

经验总结

在高性能负载均衡场景下，类似DPVS这样的高性能转发系统需要特别注意：

模式选择：根据实际网络环境和硬件支持，选择最适合的运行模式（如FullNAT、NAT等）。
性能监控：建立完善的性能监控体系，及时发现带宽利用率、连接数、错误计数等关键指标的异常变化。
渐进式测试：从简单场景开始测试，逐步增加负载和复杂度，便于定位问题。
全链路分析：负载均衡问题往往需要从客户端到服务端的全链路分析，不能局限于单个组件。

通过系统性的分析和排查，通常能够找到并解决这类高性能网络转发中的疑难问题，充分发挥DPVS在高并发、高带宽场景下的性能优势。

DPVS is a high performance Layer-4 load balancer based on DPDK.

项目地址：https://gitcode.com/gh_mirrors/dp/dpvs

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。