dstack项目0.18.43版本发布：CLI自动补全与云平台增强

2025-06-27 05:37:17作者：舒璇辛Bertina

Vendor-agnostic orchestration for training, inference and agentic workloads across NVIDIA, AMD, TPU, and Tenstorrent on clouds, Kubernetes, and bare metal.

项目地址：https://gitcode.com/gh_mirrors/ds/dstack

dstack是一个开源的机器学习基础设施编排工具，它允许数据科学家和机器学习工程师在云平台上轻松运行训练任务、开发环境和模型服务。该项目通过声明式配置和命令行工具简化了云资源的申请和管理流程，支持AWS、GCP、Azure和OCI等主流云平台。

CLI自动补全功能增强

本次0.18.43版本为dstack命令行工具引入了shell自动补全功能，支持bash和zsh两种主流shell环境。这一改进显著提升了开发者的工作效率，特别是在处理复杂命令和长资源名称时。

自动补全功能分为两个层次：首先是子命令补全，当用户输入部分命令时，CLI会智能提示可能的完整命令。其次是动态资源名称补全，这在处理运行日志、停止任务等需要指定资源名称的场景下尤为实用。

运行时长控制策略优化

新版本对max_duration参数的默认行为进行了重要调整。该参数原本在不同类型的运行配置中有不同的默认值：任务为72小时，开发环境为6小时，服务则为无限。这种不一致性常导致用户困惑和意外中断。

现在，所有运行类型的max_duration默认值统一设置为"off"，即不自动终止运行。这一变更使行为更加可预测，用户需要显式设置该参数才能启用自动终止功能。对于依赖原有默认值的用户，建议检查并更新运行配置。

多云平台支持增强

GCP日志存储支持

为满足生产环境需求，dstack服务器现在支持将运行日志存储在GCP Logging服务中。这一功能特别适合在GCP上部署多副本服务器的情况，之前仅支持AWS CloudWatch的限制被打破，使dstack的部署选择更加灵活。

AWS自定义IAM实例配置

AWS后端配置新增了iam_instance_profile参数，允许用户指定与EC2实例关联的IAM实例配置文件。这一改进使得在不需要显式传递凭证的情况下，运行中的任务能够安全访问其他AWS资源。配置方式简单直观，只需在backend配置中指定角色名称即可。

Oracle Cloud抢占式实例

OCI后端现在支持抢占式(spot)实例，为能够容忍中断的工作负载提供了更具成本效益的GPU资源选择。用户可以通过简单的命令行参数启用这一功能，系统会显示不同实例类型的实时价格，便于做出经济高效的选择。

技术细节与兼容性说明

本次更新包含一些重要的技术调整和兼容性变更：

移除了对Python 3.8的运行环境支持，用户需要升级到更高版本的Python。
改进了云平台凭证验证机制，提升了配置的可靠性。
修复了分布式任务和复制服务的日志显示问题。
优化了资源筛选逻辑，确保后端基础配置被正确应用。
增强了OS镜像，包括Fabric Manager支持和DCGM Exporter的预安装。

这些变更体现了dstack项目对稳定性和用户体验的持续关注，同时也展示了其在多云环境下的灵活性和适应能力。对于生产环境用户，建议仔细评估兼容性影响，特别是关于运行时长控制和Python版本支持的变更。

dstack

Vendor-agnostic orchestration for training, inference and agentic workloads across NVIDIA, AMD, TPU, and Tenstorrent on clouds, Kubernetes, and bare metal.

项目地址：https://gitcode.com/gh_mirrors/ds/dstack

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

dstack项目0.18.43版本发布：CLI自动补全与云平台增强

CLI自动补全功能增强

运行时长控制策略优化