首页
/ SGLang v0.4.3发布:深度优化DeepSeek V3/R1性能,引入多项创新功能

SGLang v0.4.3发布:深度优化DeepSeek V3/R1性能,引入多项创新功能

2025-06-02 11:50:18作者:邵娇湘

SGLang是一个专注于大语言模型推理优化的开源项目,旨在提供高性能、低延迟的LLM服务解决方案。该项目通过创新的系统架构设计和底层优化技术,显著提升了各类大模型的推理效率。

近日,SGLLang团队正式发布了v0.4.3版本,这是继v0.4.1之后的一个重要更新。本次更新的核心亮点是对DeepSeek V3/R1模型的深度优化,使其性能在开源LLM推理引擎中保持领先地位。同时,新版本还引入了多项创新功能,包括函数调用支持、正则表达式模式匹配等,进一步丰富了框架的能力。

DeepSeek V3/R1性能优化

在v0.4.3版本中,SGLLang团队对DeepSeek V3/R1模型进行了全方位的性能优化:

  1. FlashInfer MLA Attention集成:创新性地集成了FlashInfer MLA注意力机制,在长上下文场景下实现了4倍的性能提升。这一优化特别适合处理需要大量上下文信息的应用场景。

  2. FP8量化支持:新增了torch.compile对FP8的支持,使在线推理速度达到50 tokens/s。同时实现了CUTLASS block-wise FP8,进一步提升了计算效率。

  3. 架构增强:升级至FlashInfer v0.2,默认启用Flash Attention 3进行预填充(prefill),并扩展了EAGLE 2支持,包括与FlashInfer后端的增强集成以及在Triton后端的支持。

这些优化使SGLLang在过去六周内成为运行DeepSeek V3/R1最快的开源LLM推理引擎,团队表示将继续保持这一领先优势。

新功能亮点

除了性能优化外,v0.4.3版本还引入了多项新功能:

  1. 函数调用能力:新增了对函数调用的支持,使模型能够更灵活地与其他系统组件交互,扩展了应用场景。

  2. XGrammar后端支持正则表达式:在XGrammar后端增加了正则表达式模式支持,提供了更强大的文本模式匹配能力。

  3. 自定义采样处理器:实现了自定义采样处理器,为推理控制提供了更大的灵活性。

  4. Triton后端LoRA支持:在Triton后端集成了LoRA支持,使模型适配更加灵活高效。

技术架构改进

在底层架构方面,v0.4.3版本也进行了多项重要改进:

  1. 内存管理优化:实现了CUDA-graph兼容的KV缓存和模型权重内存释放与恢复机制,提高了内存使用效率。

  2. 分布式计算增强:支持多节点数据并行(DP)注意力,扩展了系统的横向扩展能力。

  3. 量化支持扩展:新增了对NVIDIA ModelOpt fp8量化模型的支持,并实现了TurboMind AWQ集成。

  4. EAGLE 2优化:重构了EAGLE 2实现,支持在Triton后端运行,并修复了多个边界情况下的问题。

开发者体验提升

为改善开发者体验,新版本也做了多项改进:

  1. 日志与监控增强:新增了configure_logging API用于请求转储,并增加了更多监控指标如num_requests_total。

  2. 错误处理改进:提供了更清晰的错误消息,特别是在调度器和前端接口中。

  3. 文档完善:新增了关于DeepSeek V3使用、量化、性能分析等多方面的文档,并更新了贡献指南。

  4. 开发工具支持:增加了devcontainer.json对VSCode开发的支持,简化了开发环境搭建。

跨平台支持

v0.4.3版本继续加强对不同硬件平台的支持:

  1. AMD GPU优化:为AMD GPU添加了多项优化配置,包括针对Radeon Graphics和Instinct MI325X的调优。

  2. CPU设备支持:实现了对CPU设备的支持,扩展了运行环境选择。

  3. Jetson设备指南:新增了在NVIDIA Jetson设备上运行的指导文档。

总结

SGLLang v0.4.3通过深度优化DeepSeek V3/R1性能,引入多项创新功能,以及持续改进技术架构和开发者体验,进一步巩固了其作为高性能LLM推理引擎的地位。特别是FlashInfer MLA Attention的集成和FP8量化的支持,为处理长上下文和高吞吐量场景提供了显著优势。随着函数调用等新功能的加入,SGLLang正在向更广泛的应用场景扩展,为开发者构建高效、灵活的LLM应用提供了强大支持。

登录后查看全文
热门项目推荐
相关项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
179
263
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
871
515
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
131
184
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
346
380
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
334
1.09 K
harmony-utilsharmony-utils
harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类,致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志,异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作,能够满足各种不同的开发需求。
ArkTS
31
0
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.08 K
0
kernelkernel
deepin linux kernel
C
22
5
WxJavaWxJava
微信开发 Java SDK,支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发,记得关注公众号及时接受版本更新信息,以及加入微信群进行深入讨论
Java
829
22
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
603
58