dstack 0.19.8版本发布:全面支持InfiniBand集群与ARM架构
项目概述
dstack是一个开源的AI/ML工作流编排平台,它简化了机器学习任务的部署和管理过程。通过声明式配置文件,用户可以轻松定义计算资源需求、环境依赖和执行流程,dstack会自动处理底层基础设施的配置和调度。
核心更新内容
Nebius后端新增InfiniBand集群支持
本次版本最显著的改进之一是Nebius后端现在支持InfiniBand集群。InfiniBand是一种高性能计算网络技术,特别适合需要大规模并行计算的机器学习任务,如分布式训练等。
用户只需在fleet配置中指定placement: cluster并选择支持的GPU类型(如8xH100或8xH200),系统就会自动创建InfiniBand集群。集群的网络架构选择完全自动化,同时也支持通过后端设置限制允许的网络架构。
这一特性为分布式任务带来了显著的性能提升,特别是在NCCL测试和Hugging Face TRL等需要高速节点间通信的场景中表现尤为突出。
ARM架构全面支持
0.19.8版本引入了对ARM CPU计算实例的完整支持。用户现在可以在资源配置中明确指定ARM架构:
resources:
cpu: arm:4.. # 请求4个或更多ARM核心
对于SSH fleet,dstack能够自动检测主机是否采用ARM CPU并相应调整配置。通过dstack offer --cpu arm命令,用户可以查看所有可用的ARM计算资源选项。
Lambda后端支持GH200超级芯片
Lambda后端现在支持NVIDIA最新的GH200超级芯片。这种创新设计将72核的NVIDIA Grace ARM CPU与H200 Tensor Core GPU通过NVLink-C2C高速互连技术紧密结合,为AI工作负载提供了前所未有的计算密度和内存带宽。
用户可以通过简单的资源配置请求GH200实例:
resources:
gpu: GH200:1
需要注意的是,由于GH200的稀缺性,建议配合使用retry策略,确保在资源可用时能够自动启动任务。
Azure后端管理身份增强
新版本增加了vm_managed_identity后端设置,允许用户为Azure后端创建的虚拟机配置特定的托管身份。这一改进增强了安全性和权限管理的灵活性,使Azure集成更加企业级友好。
技术细节与优化
-
终端适配性改进:修复了在非TTY环境下获取终端大小时的OSError处理,提升了命令行工具在各种环境下的稳定性。
-
Docker配置优化:在Lambda后端中默认使用
cgroupfs驱动,提高了容器运行的兼容性。 -
监控优化:不再在基于容器的后端上收集Prometheus指标,减少了不必要的资源开销。
-
API配额管理:改进了Azure A3实例大量部署时的API配额处理机制,提高了大规模部署的可靠性。
总结
dstack 0.19.8版本通过引入InfiniBand集群支持、ARM架构兼容性和GH200超级芯片等重大更新,进一步巩固了其作为现代AI基础设施管理工具的地位。这些改进不仅扩展了平台的计算能力范围,还显著提升了分布式工作负载的性能和效率。对于需要进行大规模机器学习训练和推理的用户来说,这个版本提供了更强大、更灵活的基础设施选择。
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00- DDeepSeek-OCR暂无简介Python00
openPangu-Ultra-MoE-718B-V1.1昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00
HunyuanWorld-Mirror混元3D世界重建模型,支持多模态先验注入和多任务统一输出Python00
AI内容魔方AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。03
Spark-Scilit-X1-13BFLYTEK Spark Scilit-X1-13B is based on the latest generation of iFLYTEK Foundation Model, and has been trained on multiple core tasks derived from scientific literature. As a large language model tailored for academic research scenarios, it has shown excellent performance in Paper Assisted Reading, Academic Translation, English Polishing, and Review Generation, aiming to provide efficient and accurate intelligent assistance for researchers, faculty members, and students.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile013
Spark-Chemistry-X1-13B科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00