dstack项目0.19.4版本发布：服务限速与TensorRT-LLM支持

2025-06-26 01:50:51作者：苗圣禹Peter

dstack是一个开源的机器学习工作流编排平台，它帮助研究人员和工程师轻松地在云环境中运行和管理机器学习任务。该项目提供了从开发到部署的全套解决方案，特别适合需要大规模计算资源的深度学习场景。

服务限速功能增强

本次0.19.4版本最显著的改进是新增了服务限速功能。在之前的版本中，dstack已经支持将用户应用作为服务部署并通过网关访问，但缺乏对请求流量的精细控制。新版本通过引入rate_limits配置项，允许用户针对不同URL前缀设置不同的请求速率限制。

这项功能特别适合以下场景：

配置示例展示了如何为认证API设置严格的1请求/秒限制，同时为其他API保留4请求/秒的基础速率和9个请求的突发容量。这种细粒度的控制使得生产环境中的服务部署更加可靠和安全。

在模型部署方面，新版本增加了对TensorRT-LLM的支持。TensorRT-LLM是NVIDIA推出的高性能推理框架，能够显著提升大语言模型的推理速度。dstack现在提供了部署DeepSeek R1及其蒸馏版本的完整示例，展示了如何利用TensorRT-LLM优化推理性能。

同时，项目文档中的Llama示例也更新到了最新的Llama 4 Scout模型。这些示例不仅展示了基本部署流程，还包含了针对不同硬件架构（如AMD GPU）的优化配置，为用户提供了开箱即用的参考实现。

dstack团队持续改进项目的开发体验，本次版本在构建系统上做出了重大调整：

这些改进不仅提升了核心开发者的效率，也为贡献者提供了更友好的开发环境。项目文档中新增了使用uv进行开发的详细指南，降低了新贡献者的入门门槛。

这些改进共同提升了dstack平台的稳定性、安全性和用户体验，使其更适合生产环境部署和大规模机器学习工作流管理。

对于机器学习工程师和研究人员来说，0.19.4版本提供了更强大的服务部署能力和更高效的开发体验，特别是在大语言模型部署和API服务管理方面有了显著进步。

登录后查看全文