crun容器运行时中的内存管理问题分析与修复

2025-06-25 07:02:59作者：滑思眉Philip

问题背景

在crun容器运行时1.16.1版本中，用户报告了一个严重的内存管理问题。当直接调用crun执行某些工作负载时，系统会间歇性出现"corrupted size vs. prev_size in fastbins"错误。这个错误通常表明程序存在内存管理问题，如双重释放或无效内存访问。

问题分析

通过git bisect定位，发现问题源于72b4eea85cb86e7784744711d8f9ed5e00ac15b4这个提交。该提交修改了用户信息的处理方式，但没有进行深拷贝，而是直接复制了指针。

深入分析发现，这实际上导致了一个双重释放问题：

crun_command_exec函数中对process对象执行了递归释放
libcrun_container_exec_with_options函数中对container对象也执行了递归释放
由于两个对象共享同一个process->user指针，导致该指针被释放两次

技术细节

在C语言中，当同一块内存被释放两次时，glibc的内存管理器会检测到这种异常情况并抛出"corrupted size vs. prev_size in fastbins"错误。这种错误特别危险，因为它可能导致安全漏洞或程序崩溃。

问题的根源在于72b4eea提交中的这段代码：

if (process->user == NULL && container->container_def->process->user)
  process->user = container->container_def->process->user;

这里应该像处理apparmor配置和selinux标签那样使用xstrdup进行深拷贝，而不是简单地复制指针。

解决方案

正确的做法应该是：

对用户信息进行深拷贝，而不是共享指针
确保每个资源只被释放一次
在释放前检查指针是否已被释放

修复方案已在相关PR中实现，主要修改包括：

使用xstrdup创建用户信息的副本
确保释放操作的唯一性
添加必要的空指针检查

经验教训

这个案例提醒我们：

在C语言中处理共享资源时要格外小心
指针赋值不等于资源所有权的转移
复杂数据结构中的递归释放需要谨慎设计
内存错误可能在特定条件下才显现，增加了调试难度

对于容器运行时这样的关键基础设施，内存安全问题尤为重要，因为任何漏洞都可能导致容器逃逸或其他安全问题。

crun

A fast and lightweight fully featured OCI runtime and C library for running containers

项目地址：https://gitcode.com/gh_mirrors/cr/crun

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

kernel