dstack项目中/tmp目录清理导致的容器创建错误分析

2025-07-08 06:06:55作者：盛欣凯Ernestine

Vendor-agnostic orchestration for training, inference and agentic workloads across NVIDIA, AMD, TPU, and Tenstorrent on clouds, Kubernetes, and bare metal.

项目地址：https://gitcode.com/gh_mirrors/ds/dstack

问题背景

在dstack项目的SSH集群环境中，当系统清理/tmp目录后，用户会遇到容器创建失败的问题，错误信息显示为CREATING_CONTAINER_ERROR。这个问题的根源在于dstack的运行机制设计存在一个潜在缺陷。

技术原理

dstack的工作流程中，shim组件负责下载runner二进制文件到系统的/tmp目录下。当需要创建容器时，系统会尝试将这个runner二进制文件以绑定挂载(bind mount)的方式加载到容器内部。然而，如果/tmp目录被清理，这个二进制文件就会丢失，导致挂载操作失败。

问题分析

临时目录的不可靠性：/tmp目录作为系统临时存储区域，经常会被系统维护任务或用户手动清理，不适合存放关键组件。
生命周期管理问题：当前设计在每次shim启动时都会重新下载runner，但实际上runner版本相对稳定，频繁下载既浪费资源又增加了故障点。
版本更新机制缺失：虽然需要处理runner版本更新的情况，但当前实现没有明确的版本管理策略。

解决方案

技术团队提出了以下改进方向：

改变存储位置：将runner二进制文件存放在更稳定的系统目录中，如/usr/local/bin/shim-runner，与shim本身的安装位置保持一致。
优化下载逻辑：
- 首次使用时下载
- 版本更新时重新下载
- 文件缺失时重新下载
增强健壮性：在挂载前增加文件存在性检查，提供更友好的错误提示。

实现考量

在实施改进时需要特别注意：

权限管理：确保目标目录有适当的写入权限。
版本控制：建立清晰的版本标识机制，确保能正确判断是否需要更新。
清理策略：设计合理的旧版本清理机制，避免磁盘空间浪费。

总结

这个问题的解决不仅修复了一个具体错误，更重要的是改善了dstack的可靠性和用户体验。通过将关键组件从临时目录迁移到系统目录，系统稳定性得到了显著提升。这也体现了在系统设计中考虑持久性和可靠性因素的重要性。

对于开发者而言，这个案例提醒我们：在设计依赖文件系统的功能时，需要仔细考虑文件的存储位置、生命周期和访问模式，避免因环境变化导致不可预期的行为。

Vendor-agnostic orchestration for training, inference and agentic workloads across NVIDIA, AMD, TPU, and Tenstorrent on clouds, Kubernetes, and bare metal.

项目地址：https://gitcode.com/gh_mirrors/ds/dstack

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。