Text Generation Inference v3.3.2版本发布：Gaudi架构性能优化与新模型支持

2025-06-05 14:10:06作者：裴麒琰

Text Generation Inference（TGI）是Hugging Face推出的一个高性能文本生成推理服务框架，专门为大规模语言模型的部署和推理优化而设计。它支持多种硬件平台，包括常规GPU和Intel的Gaudi加速处理器，能够高效地处理文本生成任务。

核心优化与改进

本次v3.3.2版本主要围绕Intel Gaudi架构的性能优化和新模型支持展开，包含多项重要改进：

针对Llama-4-Scout-17B-16E-Instruct和Llama-4-Maverick-17B-128E等大型模型，本次更新修复了在Gaudi平台上运行时的内存溢出(OOM)问题。通过优化内存分配策略和计算图调度，显著提升了这些大模型在Gaudi加速处理器上的稳定性和可用性。

新增了对w8a8(权重8位、激活8位)格式的FP8压缩张量的支持。这种量化技术能够在保持模型精度的同时，大幅减少内存占用和计算资源需求，特别适合在资源受限的环境中部署大型语言模型。

对vLLM扩展操作进行了升级，重点修复了指数分桶(exponential bucketing)中的问题。这项改进优化了内存管理机制，使得不同规模的请求能够更高效地利用计算资源。

新增了对Qwen3模型系列的支持，扩展了框架的模型兼容性。Qwen是阿里巴巴开发的大型语言模型系列，这次更新使得用户可以在TGI框架中高效部署和运行这些模型。

在底层架构方面，项目已迁移至hf-nix构建系统，这为依赖管理和跨平台构建提供了更好的支持。这种改变使得框架的构建过程更加标准化和可维护，同时也为未来的扩展奠定了基础。

对于Gaudi平台的优化，开发团队特别关注了大型模型的内存使用模式。通过分析模型在不同层的内存需求，调整了张量分配策略，避免了不必要的内存碎片化，从而解决了之前导致OOM的关键问题。

FP8量化的实现采用了最新的压缩技术，在保持计算精度的前提下，将模型权重和激活值压缩至8位格式。这不仅减少了内存占用，还能利用现代硬件对低精度计算的支持，提高推理速度。

这些改进使得TGI框架在以下场景中表现更加出色：

Text Generation Inference v3.3.2版本通过一系列底层优化和新功能添加，进一步巩固了其作为高效文本生成推理解决方案的地位。特别是对Gaudi架构的深度优化，展示了框架在多硬件平台上的适应能力。这些改进不仅提升了系统稳定性和性能，也为用户提供了更丰富的模型选择和部署选项。

登录后查看全文