Docker容器并发删除与状态检查的竞态条件问题分析

2025-04-30 15:49:37作者：侯霆垣

The Moby Project - a collaborative project for the container ecosystem to assemble container-based systems

项目地址：https://gitcode.com/gh_mirrors/docker189/docker

在Docker容器管理过程中，当容器被并发删除和检查状态时，可能会出现严重的竞态条件问题。这个问题会导致goroutine panic和互斥锁泄漏，最终使得容器陷入"Removal In Progress"的僵死状态。

问题背景

Docker引擎在处理容器删除和状态检查时，存在一个微妙的并发控制缺陷。具体表现为：当一个容器正在被删除的同时，另一个goroutine尝试获取该容器的检查数据时，可能会导致goroutine panic并泄漏互斥锁。

技术细节分析

问题的核心在于getInspectData函数和cleanupContainer函数之间的竞态条件：

cleanupContainer函数在标记容器为死亡状态后会释放互斥锁
与此同时，getInspectData函数可能正在持有该互斥锁进行检查操作
cleanupContainer在后续操作中会移除容器层并设置container.RWLayer为nil，但这一操作没有重新获取互斥锁
如果getInspectData函数在检查container.RWLayer非空后，cleanupContainer将其设置为nil，就会导致getInspectData在后续访问时出现空指针解引用

这种竞态条件会导致两个严重后果：

goroutine panic并打印错误日志
互斥锁被泄漏，使得后续所有需要该锁的操作（如容器检查）都会无限期挂起

问题复现

这个问题可以通过以下步骤可靠地复现：

修改Docker源码，在getInspectData函数中container.RWLayer.Metadata()调用前插入延迟循环
启动一个测试容器
在后台循环执行容器检查命令
退出容器

这种操作序列几乎总能触发该竞态条件，产生与报告中完全相同的调用栈。

解决方案

正确的修复方法是确保cleanupContainer函数在设置container.RWLayer = nil时持有容器的互斥锁。这可以保证对RWLayer的修改操作与其他操作的原子性，避免出现检查后值被修改的情况。

这种修复方式符合Go语言的并发编程原则：

对共享变量的访问必须受到互斥锁保护
临界区操作应保持最小化
锁的获取和释放应成对出现

影响范围

该问题影响Docker 27.4.1及可能更早版本，会导致以下异常行为：

容器删除过程中可能出现不可预期的panic
容器可能卡在"Removal In Progress"状态无法完成删除
相关容器检查命令会挂起无响应

总结

这个案例展示了在并发编程中，即使是看似简单的nil检查也可能因为竞态条件而导致严重问题。在系统级软件如Docker中，对资源状态的并发访问控制需要格外谨慎，任何共享变量的访问都应考虑其在多线程环境下的安全性。通过正确的互斥锁使用，可以避免这类问题的发生，保证系统的稳定性和可靠性。

The Moby Project - a collaborative project for the container ecosystem to assemble container-based systems

项目地址：https://gitcode.com/gh_mirrors/docker189/docker

登录后查看全文

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

昇腾LLM分布式训练框架

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优