SGLang v0.4.3发布：深度优化DeepSeek V3/R1性能，引入多项创新功能

2025-06-02 11:50:18作者：邵娇湘

SGLang is a structured generation language designed for large language models (LLMs). It makes your interaction with models faster and more controllable.

项目地址：https://gitcode.com/GitHub_Trending/sg/sglang

SGLang是一个专注于大语言模型推理优化的开源项目，旨在提供高性能、低延迟的LLM服务解决方案。该项目通过创新的系统架构设计和底层优化技术，显著提升了各类大模型的推理效率。

近日，SGLLang团队正式发布了v0.4.3版本，这是继v0.4.1之后的一个重要更新。本次更新的核心亮点是对DeepSeek V3/R1模型的深度优化，使其性能在开源LLM推理引擎中保持领先地位。同时，新版本还引入了多项创新功能，包括函数调用支持、正则表达式模式匹配等，进一步丰富了框架的能力。

DeepSeek V3/R1性能优化

在v0.4.3版本中，SGLLang团队对DeepSeek V3/R1模型进行了全方位的性能优化：

FlashInfer MLA Attention集成：创新性地集成了FlashInfer MLA注意力机制，在长上下文场景下实现了4倍的性能提升。这一优化特别适合处理需要大量上下文信息的应用场景。
FP8量化支持：新增了torch.compile对FP8的支持，使在线推理速度达到50 tokens/s。同时实现了CUTLASS block-wise FP8，进一步提升了计算效率。
架构增强：升级至FlashInfer v0.2，默认启用Flash Attention 3进行预填充(prefill)，并扩展了EAGLE 2支持，包括与FlashInfer后端的增强集成以及在Triton后端的支持。

这些优化使SGLLang在过去六周内成为运行DeepSeek V3/R1最快的开源LLM推理引擎，团队表示将继续保持这一领先优势。

新功能亮点

除了性能优化外，v0.4.3版本还引入了多项新功能：

函数调用能力：新增了对函数调用的支持，使模型能够更灵活地与其他系统组件交互，扩展了应用场景。
XGrammar后端支持正则表达式：在XGrammar后端增加了正则表达式模式支持，提供了更强大的文本模式匹配能力。
自定义采样处理器：实现了自定义采样处理器，为推理控制提供了更大的灵活性。
Triton后端LoRA支持：在Triton后端集成了LoRA支持，使模型适配更加灵活高效。

技术架构改进

在底层架构方面，v0.4.3版本也进行了多项重要改进：

内存管理优化：实现了CUDA-graph兼容的KV缓存和模型权重内存释放与恢复机制，提高了内存使用效率。
分布式计算增强：支持多节点数据并行(DP)注意力，扩展了系统的横向扩展能力。
量化支持扩展：新增了对NVIDIA ModelOpt fp8量化模型的支持，并实现了TurboMind AWQ集成。
EAGLE 2优化：重构了EAGLE 2实现，支持在Triton后端运行，并修复了多个边界情况下的问题。

开发者体验提升

为改善开发者体验，新版本也做了多项改进：

日志与监控增强：新增了configure_logging API用于请求转储，并增加了更多监控指标如num_requests_total。
错误处理改进：提供了更清晰的错误消息，特别是在调度器和前端接口中。
文档完善：新增了关于DeepSeek V3使用、量化、性能分析等多方面的文档，并更新了贡献指南。
开发工具支持：增加了devcontainer.json对VSCode开发的支持，简化了开发环境搭建。

跨平台支持

v0.4.3版本继续加强对不同硬件平台的支持：

AMD GPU优化：为AMD GPU添加了多项优化配置，包括针对Radeon Graphics和Instinct MI325X的调优。
CPU设备支持：实现了对CPU设备的支持，扩展了运行环境选择。
Jetson设备指南：新增了在NVIDIA Jetson设备上运行的指导文档。

总结

SGLLang v0.4.3通过深度优化DeepSeek V3/R1性能，引入多项创新功能，以及持续改进技术架构和开发者体验，进一步巩固了其作为高性能LLM推理引擎的地位。特别是FlashInfer MLA Attention的集成和FP8量化的支持，为处理长上下文和高吞吐量场景提供了显著优势。随着函数调用等新功能的加入，SGLLang正在向更广泛的应用场景扩展，为开发者构建高效、灵活的LLM应用提供了强大支持。

sglang

SGLang is a structured generation language designed for large language models (LLMs). It makes your interaction with models faster and more controllable.

项目地址：https://gitcode.com/GitHub_Trending/sg/sglang

登录后查看全文

SGLang v0.4.3发布：深度优化DeepSeek V3/R1性能，引入多项创新功能

DeepSeek V3/R1性能优化

新功能亮点

技术架构改进

开发者体验提升

跨平台支持

总结

热门内容推荐

最新内容推荐

项目优选

SGLang v0.4.3发布：深度优化DeepSeek V3/R1性能，引入多项创新功能

DeepSeek V3/R1性能优化

新功能亮点

技术架构改进

开发者体验提升

跨平台支持

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选