Youki项目中cgroup v1内存控制子系统OOM Killer配置问题解析

2025-06-02 16:54:28作者：凤尚柏Louis

在容器运行时Youki项目的cgroup v1内存控制子系统实现中，发现了一个关于OOM Killer配置的重要逻辑错误。这个问题会导致容器内进程在内存不足时无法被正常终止，从而引发进程挂起等严重问题。

问题背景

OOM Killer(Out-Of-Memory Killer)是Linux内核的一个机制，当系统内存严重不足时，它会选择性地终止某些进程以释放内存。在cgroup v1的内存子系统中，可以通过memory.oom_control文件来控制OOM Killer的行为。

在Youki项目中，cgroup v1的内存子系统实现负责配置这些参数。其中disable_oom_killer标志用于控制是否禁用OOM Killer功能。根据Linux内核文档，这个参数的语义是：

0：启用OOM Killer(默认值)
1：禁用OOM Killer

问题分析

在Youki的代码实现中，逻辑判断出现了反转错误。正确的逻辑应该是：当用户没有显式设置disable_oom_killer时(即大多数情况下)，应该保持OOM Killer启用状态。然而当前实现中，条件判断被错误地反转了。

这种错误配置会导致以下严重后果：

在内存不足情况下，容器内进程不会被OOM Killer终止
进程会进入D状态(不可中断睡眠)挂起
系统资源可能被长时间占用无法释放
影响同一节点上其他容器的正常运行

技术细节

在cgroup v1的内存子系统中，memory.oom_control文件不仅控制OOM Killer的启用状态，还包含其他相关信息：

oom_kill_disable：是否禁用OOM Killer的标志
under_oom：当前cgroup是否处于内存不足状态
oom_kill：记录该cgroup中被OOM Killer杀死的进程数量

当内存不足时，内核会按照以下顺序处理：

首先尝试回收页面缓存
如果仍然不足，触发OOM Killer
OOM Killer根据评分算法选择进程终止

修复方案

正确的实现应该遵循以下原则：

默认情况下(用户未指定disable_oom_killer)，保持OOM Killer启用
只有当用户显式要求禁用OOM Killer时，才设置oom_kill_disable=1
确保memory.oom_control文件的写入操作是原子性的

这个问题已经在Youki的最新版本中得到修复，确保了cgroup v1内存子系统的OOM Killer配置行为符合预期。

总结

容器运行时的资源控制是保证系统稳定性的关键。Youki项目对cgroup v1内存子系统的这一修复，确保了在内存压力情况下系统能够按照预期行为处理，避免了进程挂起和资源泄漏问题。对于容器运行时开发者来说，正确理解和实现cgroup的各项控制参数至关重要。

youki

A container runtime written in Rust

项目地址：https://gitcode.com/gh_mirrors/yo/youki

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。