OpenVelinux内核中的CPUSET机制深度解析

2025-06-19 01:58:01作者：郜逊炳

1. CPUSET基础概念

1.1 CPUSET是什么？

CPUSET是Linux内核提供的一种机制，用于将一组CPU和内存节点分配给一组任务。它通过虚拟文件系统呈现为嵌套的层次结构，主要功能包括：

限制任务只能在当前CPUSET允许的CPU上调度
限制内存分配只能在当前CPUSET允许的内存节点上进行
提供用户空间管理接口

1.2 为什么需要CPUSET？

在大型系统中，特别是具有以下特征的场景中，CPUSET尤为重要：

多处理器系统
复杂的内存缓存层次结构
非统一内存访问(NUMA)架构
需要精确控制资源分配的Web服务器/数据库服务器
高性能计算(HPC)应用

CPUSET允许管理员创建"软分区"，动态调整资源分配而不影响其他作业。

2. CPUSET实现原理

2.1 核心机制

CPUSET通过以下方式扩展了Linux的CPU亲和性和内存策略机制：

每个任务都关联到一个CPUSET
调度器亲和性设置(sched_setaffinity)会被过滤
内存绑定(mbind/set_mempolicy)会被过滤
通过cgroup虚拟文件系统提供用户接口

2.2 层次结构

CPUSET形成树状层次结构：

根CPUSET包含所有系统资源
子CPUSET只能包含父CPUSET资源的子集
遵循三条重要规则：
- 资源必须是父集子集
- 只有父集为独占时才能设为独占
- 独占资源不能与兄弟集重叠

3. CPUSET高级特性

3.1 独占CPUSET

独占CPUSET确保：

CPU独占(cpu_exclusive)：不允许其他CPUSET共享CPU
内存独占(mem_exclusive/mem_hardwall)：限制内核共享数据分配

3.2 内存压力监控

memory_pressure提供：

测量CPUSET内任务尝试释放内存的速率
10秒半衰期的运行平均值
单位是每秒回收尝试次数×1000
需要先启用：echo 1 > /dev/cpuset/memory_pressure_enabled

3.3 内存分布控制

通过两个标志控制：

memory_spread_page：均匀分布文件系统缓存
memory_spread_slab：均匀分布slab缓存实现采用轮询(round-robin)策略选择节点。

3.4 调度负载均衡

sched_load_balance控制：

启用时(默认)：在CPUSET内CPU间负载均衡
禁用时：减少调度开销但可能造成负载不均与sched_relax_domain_level配合控制迁移范围

4. CPUSET实践指南

4.1 基本操作

# 创建CPUSET
mkdir /dev/cpuset/newset

# 设置CPU
echo 0-3 > /dev/cpuset/newset/cpuset.cpus

# 设置内存节点  
echo 0-1 > /dev/cpuset/newset/cpuset.mems

# 附加进程
echo $$ > /dev/cpuset/newset/tasks

4.2 标志设置示例

# 启用内存分布
echo 1 > /dev/cpuset/newset/cpuset.memory_spread_page

# 设置独占
echo 1 > /dev/cpuset/newset/cpuset.mem_exclusive

# 禁用负载均衡
echo 0 > /dev/cpuset/newset/cpuset.sched_load_balance