dstack项目中的任务状态显示优化实践

2025-07-08 09:05:43作者：蔡丛锟

Vendor-agnostic orchestration for training, inference and agentic workloads across NVIDIA, AMD, TPU, and Tenstorrent on clouds, Kubernetes, and bare metal.

项目地址：https://gitcode.com/gh_mirrors/ds/dstack

在云计算和机器学习工作流管理工具dstack中，dstack ps命令是用户查看当前运行任务状态的重要工具。近期社区对该命令的输出格式进行了优化改进，使其更加清晰直观。本文将详细介绍这些优化内容及其技术实现。

原有问题分析

原版dstack ps命令存在几个明显的用户体验问题：

终止原因信息缺失：命令输出中不包含任务终止的具体原因，用户无法快速了解任务为何停止。
冗长输出问题：详细模式(-v参数)的输出过于冗长且格式混乱，信息密度低。
空间利用不合理：保留列(RESERVATION)占用大量空间但多数情况下为空，造成显示空间浪费。
成本信息缺失：输出中缺少任务运行成本这一重要信息。

优化方案设计

针对上述问题，开发团队设计了以下优化方案：

1. 状态信息精简与美化

借鉴Docker的设计理念，对任务状态信息进行简化和美化处理：

STOPPED_BY_USER → stopped
INTERRUPTED_BY_NO_CAPACITY → spot interrupted
ALL_JOBS_DONE → done
CONTAINER_EXITED_WITH_ERROR → exited (number)
FAILED_TO_START_DUE_TO_NO_CAPACITY → no capacity

这种转换既保留了关键信息，又显著减少了显示空间占用。

2. 列布局优化

重新设计了输出列的布局：

合并INSTANCE和RESERVATION列，格式为<实例类型> (<保留代码>)，若无保留代码则只显示实例类型
在详细模式(-v)下新增COST列显示任务成本

3. 详细模式改进

对详细模式进行了重新设计，使其输出更加结构化且易于阅读，同时确保关键信息突出显示。

技术实现要点

实现这些优化时主要考虑了以下技术点：

状态映射机制：建立了一套完整的终止状态到显示文本的映射系统，确保状态信息既简洁又准确。
自适应列宽：实现了动态列宽调整算法，根据终端宽度和内容自动优化显示布局。
成本计算集成：将成本计算模块与状态显示命令集成，确保成本信息准确可靠。
向后兼容：确保优化后的命令输出仍能被现有脚本和工具解析处理。

实际效果展示

优化后的命令输出更加紧凑且信息丰富：

vscode    ssh (remote)  cpu=12 mem=30GB  instance-type  $0.0496  stopped     4w ago
vscode    ssh (remote)  cpu=12 mem=30GB  instance-type  $0.0496  no capacity 4w ago
blue-mole nebius        cpu=2 mem=8GB    cpu-e2         $0.0496  done        1m ago

在详细模式下，额外显示成本等详细信息，同时保持格式整洁。

总结

dstack通过这次dstack ps命令的优化，显著提升了用户查看和管理任务时的体验。这种优化不仅涉及表面显示格式的改进，还包括底层信息架构的重新设计，体现了以用户为中心的设计理念。对于开发者而言，这种优化也展示了如何平衡信息密度与可读性，以及如何借鉴成熟工具(Docker)的优秀设计来改进自己的产品。

这些改进已被合并到主分支，用户可以通过更新到最新版dstack来体验这些优化。未来团队还计划进一步优化其他命令的输出格式，提供更加一致和高效的用户体验。

dstack