runc容器运行时内存限制问题分析与解决方案

2025-05-18 10:36:21作者：鲍丁臣Ursa

问题背景

在runc容器运行时1.1.15版本中，用户在使用Kubernetes e2e测试时发现了一个与内存限制相关的OOM(内存不足)问题。这个问题在特定配置下尤为明显：当使用containerd 1.6版本、cgroup v2和cgroupfs驱动时，测试会频繁失败。

问题现象

测试过程中，系统日志显示runc的init进程被OOM killer终止，错误信息如下：

Memory cgroup out of memory: Killed process 52432 (runc:[2:INIT]) total-vm:1606060kB, anon-rss:3496kB, file-rss:1152kB, shmem-rss:5888kB, UID:65535 pgtables:160kB oom_score_adj:-998

值得注意的是，这个问题在以下配置中不会出现：

使用systemd cgroup驱动而非cgroupfs
使用containerd 1.7或更新版本

技术分析

根本原因

经过深入分析，发现问题源于runc 1.1.15版本中引入的安全改进措施。为了增强安全性，runc采用了memfd方式来克隆二进制文件，这一过程会在容器cgroup设置之前消耗内存。

关键点在于：

内存克隆操作发生在加入容器cgroup之前
这部分内存消耗不会被计入容器内存限制
在cgroup v2环境下，内存记账机制更加严格

性能影响

改进方案虽然提升了安全性，但带来了性能开销。测试数据显示：

runc 1.1.15版本启动100个容器耗时约3.025秒
应用优化补丁后，相同测试耗时增加到4.123秒
这种性能下降是因为克隆操作和cgroup加入操作变为串行执行

解决方案

短期解决方案

对于遇到此问题的用户，可以考虑以下临时解决方案：

调整Kubernetes测试配置：增加kubeReserved内存设置，例如从15Mi提高到20Mi或100Mi
使用systemd cgroup驱动：在cgroup v2环境下，使用systemd驱动而非cgroupfs
升级到runc 1.2.0：新版本已经优化了相关实现

长期解决方案

runc项目组已经在新版本中实施了更完善的优化方案：

调整执行顺序：确保内存敏感操作在加入容器cgroup之后执行
优化同步机制：改进nsexec中的cgroup同步逻辑，避免潜在的竞争条件
性能优化：在保证安全的前提下，减少容器启动时间开销

最佳实践建议

对于生产环境，建议升级到runc最新稳定版本
在cgroup v2环境下，优先考虑使用systemd cgroup驱动
为Kubernetes系统组件预留足够的内存资源
定期关注runc项目的安全更新和性能优化

这个问题展示了容器运行时中安全性与性能之间的微妙平衡，也提醒我们在实施安全改进时需要全面考虑各种使用场景和配置组合。

runc

CLI tool for spawning and running containers according to the OCI specification

项目地址：https://gitcode.com/gh_mirrors/ru/runc

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

runc容器运行时内存限制问题分析与解决方案

问题背景

问题现象

技术分析

根本原因

性能影响

解决方案

短期解决方案

长期解决方案

最佳实践建议

热门内容推荐

最新内容推荐

项目优选

runc容器运行时内存限制问题分析与解决方案

问题背景

问题现象

技术分析

根本原因

性能影响

解决方案

短期解决方案

长期解决方案

最佳实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选