首页
/ dstack项目0.19.4版本发布:服务限速与TensorRT-LLM支持

dstack项目0.19.4版本发布:服务限速与TensorRT-LLM支持

2025-06-26 03:01:27作者:苗圣禹Peter

dstack是一个开源的机器学习工作流编排平台,它帮助研究人员和工程师轻松地在云环境中运行和管理机器学习任务。该项目提供了从开发到部署的全套解决方案,特别适合需要大规模计算资源的深度学习场景。

服务限速功能增强

本次0.19.4版本最显著的改进是新增了服务限速功能。在之前的版本中,dstack已经支持将用户应用作为服务部署并通过网关访问,但缺乏对请求流量的精细控制。新版本通过引入rate_limits配置项,允许用户针对不同URL前缀设置不同的请求速率限制。

这项功能特别适合以下场景:

  1. 保护关键API端点不被过度调用
  2. 防止突发流量导致服务不可用
  3. 为不同优先级的API路径分配不同的带宽资源

配置示例展示了如何为认证API设置严格的1请求/秒限制,同时为其他API保留4请求/秒的基础速率和9个请求的突发容量。这种细粒度的控制使得生产环境中的服务部署更加可靠和安全。

TensorRT-LLM与Llama 4支持

在模型部署方面,新版本增加了对TensorRT-LLM的支持。TensorRT-LLM是NVIDIA推出的高性能推理框架,能够显著提升大语言模型的推理速度。dstack现在提供了部署DeepSeek R1及其蒸馏版本的完整示例,展示了如何利用TensorRT-LLM优化推理性能。

同时,项目文档中的Llama示例也更新到了最新的Llama 4 Scout模型。这些示例不仅展示了基本部署流程,还包含了针对不同硬件架构(如AMD GPU)的优化配置,为用户提供了开箱即用的参考实现。

开发体验优化

dstack团队持续改进项目的开发体验,本次版本在构建系统上做出了重大调整:

  1. 从传统的pip包管理器迁移到了uv(由Astral开发的新一代Python包管理器),使得依赖安装时间从70秒大幅缩短到10秒以内
  2. 测试环节引入了pytest-xdist支持并行测试执行
  3. CI/CD流水线经过优化后,构建时间从9分钟减少到4分钟

这些改进不仅提升了核心开发者的效率,也为贡献者提供了更友好的开发环境。项目文档中新增了使用uv进行开发的详细指南,降低了新贡献者的入门门槛。

其他重要改进

  1. 日志存储系统修复了CloudWatchLogStorage在处理稀疏日志时的问题
  2. 增强了用户名验证机制,提高了系统安全性
  3. 改进了运行状态检测的重试策略,采用指数退避算法
  4. 解决了dstack attach命令的分离问题
  5. 修复了Nginx上游名称冲突的问题

这些改进共同提升了dstack平台的稳定性、安全性和用户体验,使其更适合生产环境部署和大规模机器学习工作流管理。

对于机器学习工程师和研究人员来说,0.19.4版本提供了更强大的服务部署能力和更高效的开发体验,特别是在大语言模型部署和API服务管理方面有了显著进步。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
23
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
225
2.27 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
flutter_flutterflutter_flutter
暂无简介
Dart
526
116
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
988
585
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
351
1.42 K
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
61
17
GLM-4.6GLM-4.6
GLM-4.6在GLM-4.5基础上全面升级:200K超长上下文窗口支持复杂任务,代码性能大幅提升,前端页面生成更优。推理能力增强且支持工具调用,智能体表现更出色,写作风格更贴合人类偏好。八项公开基准测试显示其全面超越GLM-4.5,比肩DeepSeek-V3.1-Terminus等国内外领先模型。【此简介由AI生成】
Jinja
47
0
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
17
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
JavaScript
212
288