OpenVeloLinux内核中的NUMA内存策略深度解析

2025-06-19 06:02:27作者：田桥桑Industrious

什么是NUMA内存策略？

在现代多核处理器系统中，NUMA（非统一内存访问）架构已成为主流设计。OpenVeloLinux内核中的NUMA内存策略机制决定了内核如何在NUMA系统或模拟NUMA系统中分配内存。这一机制自2.6内核时代（约2004年5月）引入，至今仍是优化NUMA系统性能的关键组件。

内存策略与cpuset（一种管理机制）有本质区别：

cpuset是管理员用来限制进程内存分配节点的机制
内存策略则是NUMA感知应用程序可以利用的编程接口

当两者同时应用于任务时，cpuset的限制具有更高优先级。

内存策略的核心概念

策略作用域

Linux内核支持多种作用域的内存策略，按范围从广到窄依次为：

系统默认策略：
- 硬编码在内核中
- 控制所有未被更具体策略控制的页面分配
- 系统运行期间默认使用"本地分配"
- 启动阶段则采用跨所有节点的交错分配，避免初始启动节点过载
任务/进程策略：
- 每个任务可选的自定义策略
- 控制任务直接或间接发起的所有页面分配
- 具有继承性，通过fork()和exec()传递
- 多线程任务中，策略仅影响安装策略的线程及其后续创建的线程
VMA策略：
- 针对任务虚拟地址空间特定范围的策略
- 仅适用于匿名页面（任务栈、堆、MAP_ANONYMOUS映射）
- 在共享地址空间的任务间共享（如线程）
- 支持在已映射区域安装子范围策略（会分割VMA）
共享策略：
- 应用于共享内存对象的策略
- 所有映射该对象的任务共享同一策略
- 目前仅支持shmget()或mmap(MAP_ANONYMOUS|MAP_SHARED)创建的共享内存段

策略组成要素

NUMA内存策略由三部分组成：

模式（mode）：决定策略行为
可选模式标志（flags）：影响模式行为
可选节点集（nodes）：策略行为的参数

内核中通过引用计数结构体struct mempolicy实现。

策略模式详解

OpenVeloLinux支持四种基本策略模式：

默认模式（MPOL_DEFAULT）：
- 表示"回退到下一级更具体的策略"
- 不指定节点集（必须为空）
绑定模式（MPOL_BIND）：
- 内存必须从策略指定的节点集中分配
- 选择距离分配点最近且有足够内存的节点
优先模式（MPOL_PREFERRED）：
- 优先从指定节点分配
- 失败时按平台固件提供的距离信息搜索其他节点
- 空节点集表示"始终优先本地分配"
交错模式（MPOL_INTERLEAVED）：
- 页面粒度跨节点交错分配
- 匿名页和共享内存页：基于页面偏移选择节点
- 页缓存页：基于任务计数器轮询节点

高级模式标志

MPOL_F_STATIC_NODES：
- 节点集不随允许节点集变化而重映射
- 仅应用用户节点集与允许节点集的交集
- 不能与MPOL_F_RELATIVE_NODES同时使用
MPOL_F_RELATIVE_NODES：
- 节点集相对于允许节点集进行映射
- 保持用户节点集与允许节点集的相对关系
- 同样不能与MPOL_F_STATIC_NODES同时使用

引用计数机制

内存策略结构体使用原子引用计数解决使用/释放竞争问题：

初始引用：新策略初始计数为1（安装任务持有）
存储引用：策略指针存入其他结构体时增加引用
使用场景：
- 策略查询（通过API或/proc接口）
- 页面分配时的策略检查（热路径优化）

优化措施：

系统默认策略永不释放，无需引用计数
查询时通过mmap_sem读锁保护，避免竞争
页面分配时同样受mmap_sem读锁保护
共享策略需要特殊处理，确保替换时不会影响使用

实际应用建议

应用程序设计：
- 使用MPOL_F_RELATIVE_NODES时，节点集应假设为0到N-1
- 让内核根据实际允许节点集进行重映射
性能优化：
- 热路径上尽量减少引用计数原子操作
- 理解不同策略模式的开销特点
调试技巧：
- 通过/proc//numa_maps检查策略应用情况
- 注意共享内存区域在不同任务中的VMA配置差异

通过深入理解OpenVeloLinux内核的NUMA内存策略机制，开发者可以更好地优化应用程序在NUMA系统上的内存访问性能，特别是在高性能计算和大数据处理场景中。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库