PcapPlusPlus中DPDK设备的NUMA感知优化

2025-06-28 12:51:49作者：范靓好Udolf

PcapPlusPlus is a multiplatform C++ library for capturing, parsing and crafting of network packets. It is designed to be efficient, powerful and easy to use. It provides C++ wrappers for the most popular packet processing engines such as libpcap, Npcap, WinPcap, DPDK, AF_XDP and PF_RING.

项目地址：https://gitcode.com/gh_mirrors/pc/PcapPlusPlus

在PcapPlusPlus项目中，DPDK设备的多队列初始化机制存在一个重要的性能优化点——NUMA感知能力不足。本文将深入分析这一问题及其解决方案。

问题背景

现代服务器通常采用NUMA（非统一内存访问）架构，在这种架构中，CPU访问本地内存节点的速度要快于访问远程内存节点。PcapPlusPlus的DPDK封装层在初始化多队列时，默认使用socket 0来分配内存，这可能导致：

内存分配在非最优的NUMA节点上
跨NUMA节点访问内存带来的延迟增加
整体网络处理性能下降

技术分析

DPDK提供了完善的NUMA感知API，包括：

rte_eth_dev_socket_id()：获取设备所在的NUMA节点
rte_pktmbuf_pool_create()：支持指定内存池创建的NUMA节点
rte_eth_rx/tx_queue_setup()：支持指定队列内存分配的NUMA节点

解决方案实现

优化方案主要包含三个关键修改点：

设备NUMA节点信息存储

class DpdkDevice {
private:
    int16_t m_DeviceSocketId;  // 新增成员变量存储设备NUMA节点
};

构造函数初始化

DpdkDevice::DpdkDevice(int id) : m_Id(id) {
    m_DeviceSocketId = rte_eth_dev_socket_id(m_Id);  // 获取设备所在NUMA节点
}

NUMA感知的内存分配

// 内存池创建
memPool = rte_pktmbuf_pool_create(..., m_DeviceSocketId);

// RX队列设置
rte_eth_rx_queue_setup(..., m_DeviceSocketId, ...);

// TX队列设置
rte_eth_tx_queue_setup(..., m_DeviceSocketId, ...);

// TX缓冲区分配
m_TxBuffers[i] = rte_zmalloc_socket(..., m_DeviceSocketId);