Argo Workflows 中磁盘空间不足导致工作流卡在运行状态的问题分析

2025-05-14 22:59:12作者：毕习沙Eudora

问题背景

在使用 Argo Workflows 进行大规模数据处理时，我们遇到了一个典型的问题：当工作流步骤生成的临时文件占用了节点大部分磁盘空间后，后续的产物打包阶段因空间不足而失败，但整个工作流却一直保持在"Running"状态，无法自动失败终止。

问题现象

具体表现为：

工作流步骤成功执行并生成了大量临时文件（案例中约1TB）
在Argo尝试将这些文件打包为产物时，由于节点剩余磁盘空间不足而失败
错误信息显示："The node was low on resource: ephemeral-storage"
尽管步骤已失败，工作流整体状态仍显示为"Running"，无法自动终止

技术分析

根本原因

这个问题源于Argo Workflows控制器逻辑中的一个缺陷：

当工作流步骤的主容器执行完成后，Argo会启动产物打包过程
如果打包过程中因资源不足失败，控制器无法正确处理这种异常状态
控制器持续等待工作流任务结果(WorkflowTaskResult)的完成状态，但由于异常导致该结果永远不会被写入
因此工作流状态无法从"Running"转变为"Failed"

解决方案

该问题已在后续版本中得到修复，主要改进包括：

控制器现在能够正确识别和处理Pod已完成但任务结果未完成的情况
当检测到Pod因资源不足而失败时，会立即将工作流标记为失败状态
增加了对非正常关闭情况的处理逻辑

最佳实践建议

为避免类似问题，建议采取以下措施：

资源预分配：为工作流步骤明确设置资源请求和限制，包括磁盘空间

resources:
  requests:
    ephemeral-storage: 500Gi
  limits:
    ephemeral-storage: 1Ti

产物处理优化：
- 考虑使用"archive: none"选项避免自动打包大文件
- 将大文件直接输出到持久化存储而非本地磁盘
监控与告警：
- 实施节点磁盘空间监控
- 设置工作流超时时间
版本升级：使用已修复该问题的Argo Workflows版本

总结

Argo Workflows在处理大规模数据时，资源管理尤为重要。磁盘空间不足导致的产物打包失败是一个典型场景，现在通过改进的控制器逻辑已能正确处理。用户应当结合资源配额设置和产物处理策略来预防此类问题，同时保持Argo Workflows版本更新以获得最佳稳定性和功能支持。

argo-workflows

Workflow Engine for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ar/argo-workflows

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

438

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

454

5.07 K

Argo Workflows 中磁盘空间不足导致工作流卡在运行状态的问题分析

问题背景

问题现象

技术分析

根本原因

相关组件交互

解决方案

最佳实践建议

总结

热门内容推荐

最新内容推荐

项目优选

Argo Workflows 中磁盘空间不足导致工作流卡在运行状态的问题分析

问题背景

问题现象

技术分析

根本原因

相关组件交互

解决方案

最佳实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选