Cog项目构建过程中Docker驱动选择问题解析

2025-05-27 16:55:29作者：卓炯娓

问题背景

在使用Cog工具构建和推送机器学习模型镜像时，开发者可能会遇到一个特殊问题：在本地环境（如M2芯片的MacBook Pro）上使用cog build和cog push命令能够正常工作，但当同样的操作通过GitHub Actions工作流执行时却会失败。

错误现象

在GitHub Actions工作流中执行构建时，系统会显示一系列层加载操作后，突然尝试从远程仓库拉取镜像而非使用本地构建的镜像。错误信息中关键部分显示"failed to authorize: failed to fetch oauth token"，最终导致构建过程失败。

根本原因分析

经过深入排查，发现问题的根源在于Docker Buildx的驱动选择。默认情况下，GitHub Actions中的setup-cog操作会使用docker-container驱动，而这种驱动会导致构建系统在最后阶段错误地尝试从远程仓库拉取镜像，而非使用本地已构建的镜像。

解决方案

解决此问题的关键在于正确配置Buildx驱动：

在GitHub Actions工作流中，明确指定使用docker驱动而非默认的docker-container驱动
这可以通过在setup-buildx-action步骤中添加相应配置实现

技术原理详解

Docker Buildx支持多种驱动，每种驱动有不同的特性和适用场景：

docker驱动：使用本地Docker守护进程进行构建，适合单平台构建场景
docker-container驱动：在容器中运行构建器，支持多平台构建等高级功能

在Cog构建场景中，当使用docker-container驱动时，构建过程会被分割为多个阶段，导致系统错误地将FROM指令解释为需要从远程仓库拉取镜像的指令。而使用docker驱动则能保持构建上下文的连续性，正确识别并使用本地构建的镜像。

最佳实践建议

对于不需要多平台构建的Cog项目，推荐使用docker驱动以获得更简单的构建流程
在GitHub Actions工作流中，明确配置Buildx驱动类型以避免不可预期的行为
当遇到构建问题时，可以使用cog debug和cog build --debug命令获取详细构建日志
考虑在本地复现CI环境进行调试，可使用类似mxschmitt/action-tmate的工具SSH到运行器环境

后续改进

Cog项目团队已经在新版本(v2.0.2)的setup-cog中修复了这个问题，默认使用更适合大多数场景的配置。对于仍在使用旧版本的用户，可以手动指定驱动类型作为临时解决方案。

通过理解这一问题的本质和解决方案，开发者可以更顺利地实现Cog项目在CI/CD环境中的自动化构建和部署。

cog

Containers for machine learning

项目地址：https://gitcode.com/gh_mirrors/co/cog

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理