dstack 0.19.8版本发布:全面支持InfiniBand集群与ARM架构
项目概述
dstack是一个开源的AI/ML工作流编排平台,它简化了机器学习任务的部署和管理过程。通过声明式配置文件,用户可以轻松定义计算资源需求、环境依赖和执行流程,dstack会自动处理底层基础设施的配置和调度。
核心更新内容
Nebius后端新增InfiniBand集群支持
本次版本最显著的改进之一是Nebius后端现在支持InfiniBand集群。InfiniBand是一种高性能计算网络技术,特别适合需要大规模并行计算的机器学习任务,如分布式训练等。
用户只需在fleet配置中指定placement: cluster并选择支持的GPU类型(如8xH100或8xH200),系统就会自动创建InfiniBand集群。集群的网络架构选择完全自动化,同时也支持通过后端设置限制允许的网络架构。
这一特性为分布式任务带来了显著的性能提升,特别是在NCCL测试和Hugging Face TRL等需要高速节点间通信的场景中表现尤为突出。
ARM架构全面支持
0.19.8版本引入了对ARM CPU计算实例的完整支持。用户现在可以在资源配置中明确指定ARM架构:
resources:
cpu: arm:4.. # 请求4个或更多ARM核心
对于SSH fleet,dstack能够自动检测主机是否采用ARM CPU并相应调整配置。通过dstack offer --cpu arm命令,用户可以查看所有可用的ARM计算资源选项。
Lambda后端支持GH200超级芯片
Lambda后端现在支持NVIDIA最新的GH200超级芯片。这种创新设计将72核的NVIDIA Grace ARM CPU与H200 Tensor Core GPU通过NVLink-C2C高速互连技术紧密结合,为AI工作负载提供了前所未有的计算密度和内存带宽。
用户可以通过简单的资源配置请求GH200实例:
resources:
gpu: GH200:1
需要注意的是,由于GH200的稀缺性,建议配合使用retry策略,确保在资源可用时能够自动启动任务。
Azure后端管理身份增强
新版本增加了vm_managed_identity后端设置,允许用户为Azure后端创建的虚拟机配置特定的托管身份。这一改进增强了安全性和权限管理的灵活性,使Azure集成更加企业级友好。
技术细节与优化
-
终端适配性改进:修复了在非TTY环境下获取终端大小时的OSError处理,提升了命令行工具在各种环境下的稳定性。
-
Docker配置优化:在Lambda后端中默认使用
cgroupfs驱动,提高了容器运行的兼容性。 -
监控优化:不再在基于容器的后端上收集Prometheus指标,减少了不必要的资源开销。
-
API配额管理:改进了Azure A3实例大量部署时的API配额处理机制,提高了大规模部署的可靠性。
总结
dstack 0.19.8版本通过引入InfiniBand集群支持、ARM架构兼容性和GH200超级芯片等重大更新,进一步巩固了其作为现代AI基础设施管理工具的地位。这些改进不仅扩展了平台的计算能力范围,还显著提升了分布式工作负载的性能和效率。对于需要进行大规模机器学习训练和推理的用户来说,这个版本提供了更强大、更灵活的基础设施选择。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0216
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0138
uni-appA cross-platform framework using Vue.jsJavaScript08
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03