Text Generation Inference v3.2.0 版本发布：工具调用改进与Gemma 3支持

2025-06-05 20:48:56作者：房伟宁

Text Generation Inference（TGI）是Hugging Face推出的一个高性能文本生成推理服务，专门为大规模语言模型部署而设计。该项目支持多种流行的开源大语言模型，提供了高效的推理能力，并支持多种硬件加速方案。

主要更新内容

工具调用功能的重大改进

本次3.2.0版本对工具调用（tool calling）功能进行了重大重构，这是一个破坏性变更。新版本完全遵循OpenAI的返回结果格式，特别是在参数返回类型上做出了重要调整：

参数返回类型现在统一为字符串格式，而不是之前的JSON对象格式
修复了多个与工具调用相关的副作用问题
将tool_calls改为向量结构，提高了处理效率

这些改进使得TGI的工具调用功能与OpenAI的API更加兼容，为开发者提供了更一致的体验。

Gemma 3模型支持

新版本增加了对Google最新发布的Gemma 3模型的支持。Gemma系列是Google基于其大语言模型技术推出的开源模型，Gemma 3在性能和效率上都有显著提升。TGI现在可以充分发挥Gemma 3的推理能力，为用户提供更高质量的文本生成服务。

其他重要改进

Qwen2多LoRA层支持：为Qwen2模型添加了多LoRA层的支持，增强了模型的适应性和灵活性。
量化模型改进：在量化模型中添加了modules_to_not_convert选项，允许用户指定不需要量化的模块，为模型优化提供了更多控制权。
OpenTelemetry增强：为/v1/chat/completions端点添加了请求参数到OpenTelemetry span的功能，提升了监控和调试能力。
性能优化：包括对神经元后端（neuron backend）的更新，以及对llamacpp后端的改进，进一步提升了推理效率。
Bug修复：修复了多个问题，包括Qwen VL模型的问题、工具调用相关的多个问题，以及Olmo模型在transformers后端下的兼容性问题。

技术细节

在工具调用的实现上，新版本做出了重要架构调整。之前的版本在处理工具调用时，参数是以JSON对象的形式返回，这与OpenAI的API行为不一致。现在改为字符串格式后，不仅提高了兼容性，也使得参数处理更加统一和可靠。

对于Gemma 3的支持，团队针对该模型的特点进行了专门的优化，确保能够充分利用其架构优势。同时，通过添加多LoRA层支持，使得像Qwen2这样的模型能够更灵活地适应不同场景的需求。

量化方面的改进特别值得关注，modules_to_not_convert选项的加入让用户可以在量化过程中保留特定模块的精度，这对于某些对精度敏感的应用场景非常有用。

总结

Text Generation Inference v3.2.0版本带来了多项重要更新，特别是在工具调用功能的改进和Gemma 3模型支持方面。这些更新不仅增强了系统的功能和兼容性，也为开发者提供了更强大、更灵活的工具来部署和优化大语言模型服务。对于正在使用或考虑使用TGI的团队来说，这个版本值得升级。

登录后查看全文

Text Generation Inference v3.2.0 版本发布：工具调用改进与Gemma 3支持

主要更新内容

工具调用功能的重大改进

Gemma 3模型支持

其他重要改进

技术细节

总结

热门内容推荐

最新内容推荐

项目优选

Text Generation Inference v3.2.0 版本发布：工具调用改进与Gemma 3支持

主要更新内容

工具调用功能的重大改进

Gemma 3模型支持

其他重要改进

技术细节

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选