Docker Buildx容器驱动模式下镜像拉取问题的分析与解决

2025-04-30 12:34:32作者：侯霆垣

在Docker生态系统中，Buildx是一个强大的构建工具，它支持多种构建驱动方式。其中docker-container驱动模式因其隔离性和灵活性而广受欢迎。然而，在特定环境下使用这种驱动模式时，开发者可能会遇到一个令人困惑的问题——明明已经成功拉取了基础镜像，系统却报错提示镜像不存在。

问题现象

当开发者在CI/CD环境（如AWS CodeBuild）中使用DinD（Docker in Docker）模式，并配置Buildx使用docker-container驱动配合containerd时，会出现一个典型错误。具体表现为：Buildx能够成功拉取moby/buildkit镜像，但在后续构建步骤中却抛出"Error response from daemon: No such image"的错误信息。

值得注意的是，这个问题仅在启用containerd时出现，在本地开发环境（如macOS）或未使用containerd的情况下则不会发生。该问题最初出现在BuildKit 0.17.1和Docker 27.2.1版本中，升级到更高版本后问题依然存在。

技术背景

要理解这个问题，我们需要了解几个关键技术点：

Buildx的docker-container驱动：这种驱动方式会在Docker容器中运行BuildKit，为构建过程提供隔离环境。
containerd：作为容器运行时，它负责管理镜像和容器的生命周期。在Docker内部，containerd作为底层组件工作。
镜像拉取机制：当Buildx启动时，会先拉取指定的BuildKit镜像，然后基于该镜像启动构建容器。

问题根源

经过深入分析，发现问题出在Buildx的镜像拉取错误处理逻辑上。具体来说：

Buildx通过Docker API的images/create端点拉取镜像，这个端点采用流式响应机制，会返回一系列JSON格式的消息。
当前实现仅检查初始请求是否成功，而没有完整处理流式响应过程中可能发生的错误。这意味着即使拉取过程中出现问题，只要初始请求成功，Buildx就会认为镜像拉取成功。
当使用containerd时，某些情况下（如网络问题或存储问题）可能导致镜像虽然被拉取但未被正确存储，而由于错误处理不完善，Buildx无法感知到这个失败。