SkyPilot项目中托管作业存储测试失败问题分析与解决

2025-05-29 12:47:28作者：邵娇湘

Run, manage, and scale AI workloads on any AI infrastructure. Use one system to access & manage all AI compute (Kubernetes, Slurm, 20+ clouds, on-prem).

项目地址：https://gitcode.com/GitHub_Trending/sk/skypilot

问题背景

在SkyPilot项目的持续集成测试中，发现test_managed_jobs_storage测试用例在Azure环境下执行失败。该测试用例在0.8.0版本中能够成功执行，但在master分支上却始终显示FAILED_PRECHECKS状态，最终因超时而失败。

问题现象

测试执行过程中，作业状态从PENDING开始，经过STARTING阶段后，最终停留在FAILED_PRECHECKS状态，无法达到预期的SUCCEEDED状态。测试脚本设置了215秒的超时时间，在多次重试后仍然失败。

问题分析

通过分析日志和代码，发现几个关键点：

测试用例涉及使用Azure存储服务进行作业管理
配置文件中正确设置了存储服务信息
作业能够正常提交，但在预检查阶段失败
类似问题也出现在GCP环境中

深入研究发现，问题的根源在于Buildkite代理设置了AWS认证环境变量，而SkyPilot的代码会优先使用环境变量中的认证，而不是配置文件中的设置。这导致了认证信息不一致，使得预检查阶段无法通过。

解决方案

针对这个问题，采取了以下解决措施：

在测试执行前取消设置AWS相关的环境变量
强制系统使用配置文件中的认证信息
确保不同云平台的环境变量不会互相干扰

验证结果

经过上述调整后，测试用例在Azure和GCP环境下均能成功执行，作业状态能够正常从PENDING过渡到SUCCEEDED，验证了解决方案的有效性。

经验总结

这个案例提醒我们，在多云环境下的自动化测试中，需要特别注意：

环境变量的优先级问题
不同云平台认证的隔离性
测试环境的清理和初始化工作
配置文件的正确加载机制

通过这次问题的解决，不仅修复了测试用例，也增强了SkyPilot项目在多云环境下的稳定性测试能力。

skypilot

Run, manage, and scale AI workloads on any AI infrastructure. Use one system to access & manage all AI compute (Kubernetes, Slurm, 20+ clouds, on-prem).

项目地址：https://gitcode.com/GitHub_Trending/sk/skypilot

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

SkyPilot项目中托管作业存储测试失败问题分析与解决

问题背景

问题现象

问题分析

解决方案

验证结果

经验总结

热门内容推荐

最新内容推荐

项目优选

SkyPilot项目中托管作业存储测试失败问题分析与解决

问题背景

问题现象

问题分析

解决方案

验证结果

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选