SGLang项目v0.4.5版本发布：全面支持Llama 4与多项性能优化

2025-06-02 00:27:03作者：柏廷章Berta

SGLang is a structured generation language designed for large language models (LLMs). It makes your interaction with models faster and more controllable.

项目地址：https://gitcode.com/GitHub_Trending/sg/sglang

SGLang是一个专注于高效语言模型推理的开源项目，通过创新的系统架构和算法优化，显著提升了大型语言模型的推理性能。最新发布的v0.4.5版本带来了多项重要更新，包括对Llama 4模型的全面支持、FlashAttention 3后端集成、EAGLE3推测解码技术等关键特性。

Llama 4模型支持

v0.4.5版本最引人注目的特性之一是对Llama 4系列模型的完整支持。项目团队实现了与官方基准测试相匹配的精度表现，其中Llama-4-Scout-17B-16E-Instruct模型在MMLU Pro数据集上的零样本得分达到75.2，而Llama-4-Maverick-17B-128E-Instruct模型更是达到了80.7的高分。

这一支持不仅限于基础推理功能，还包括对Llama 4特有架构的优化，确保用户能够充分发挥这一先进模型系列的潜力。团队还计划在后续版本中进一步优化Llama 4的性能表现。

性能优化与新技术集成

FlashAttention 3后端

新版本集成了FlashAttention 3作为可选后端，特别针对长上下文任务进行了优化。这一技术通过更高效的内存访问模式和计算优化，显著减少了长序列处理时的计算开销，为需要处理大量上下文信息的应用场景提供了性能保障。

EAGLE3推测解码

SGLang成为首个支持EAGLE3推测解码技术的开源项目。这项创新技术通过预测模型可能的输出路径并提前验证，大幅提高了解码阶段的吞吐量。根据相关论文，EAGLE3在保持生成质量的同时，能够显著提升推理速度。

DeepEP集成

针对混合专家(MoE)模型的推理需求，v0.4.5版本集成了DeepEP技术。这一集成优化了专家路由和计算分配，使得MoE模型能够更高效地利用计算资源，特别是在多GPU环境下的表现更为突出。

架构创新

分离式预填充与解码

v0.4.5版本引入了一个创新的原型设计——分离式预填充与解码架构。这一设计允许系统将输入处理的预填充阶段与生成输出的解码阶段进行资源隔离和优化分配，为未来的性能优化奠定了基础。

其他重要改进

除了上述主要特性外，v0.4.5版本还包括多项质量改进和错误修复：

改进了数据并行注意力机制，优化了计算和通信开销
增强了LoRA适配器的张量并行和权重切片支持
修复了多GPU环境下的内存泄漏问题
优化了量化内核性能，特别是针对FP8和INT8格式
改进了CUDA图支持，提高了推理的稳定性

未来展望

SGLang团队已经规划了多项后续开发重点，包括进一步优化分离式预填充与解码架构、增强Llama 4支持、改进专家并行(EP)技术等。这些持续创新将确保SGLang保持在高效语言模型推理领域的技术领先地位。

v0.4.5版本的发布标志着SGLang项目在支持最新模型架构和优化推理性能方面又迈出了重要一步，为开发者和研究人员提供了更强大、更高效的工具来部署和利用大型语言模型。

SGLang is a structured generation language designed for large language models (LLMs). It makes your interaction with models faster and more controllable.

项目地址：https://gitcode.com/GitHub_Trending/sg/sglang

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库，借助众多实用工具类，致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志，异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作，能够满足各种不同的开发需求。

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

deepin linux kernel

微信开发 Java SDK，支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发，记得关注公众号及时接受版本更新信息，以及加入微信群进行深入讨论

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端