首页
/ Text Generation Inference v3.0.2 发布:支持 FlashAttention 的全新 Transformers 后端

Text Generation Inference v3.0.2 发布:支持 FlashAttention 的全新 Transformers 后端

2025-06-05 21:50:30作者:范靓好Udolf

Text Generation Inference(TGI)是 Hugging Face 推出的高性能文本生成推理服务框架,专为大规模语言模型部署而设计。它通过优化推理流程、支持多种硬件加速技术,显著提升了文本生成的效率和吞吐量。

核心更新:FlashAttention 支持的 Transformers 后端

本次 v3.0.2 版本最重要的更新是引入了一个全新的 Transformers 后端,该后端支持 FlashAttention 技术。FlashAttention 是一种高效的注意力机制实现,通过优化内存访问模式和计算流程,显著提升了注意力计算的性能。特别值得注意的是:

  1. 性能表现与原生 TGI 相当,这意味着开发者现在可以在保持高性能的同时,获得更灵活的模型支持
  2. 支持所有非官方支持的模型直接运行在 TGI 中,大大扩展了框架的适用范围
  3. 这一突破性进展由社区贡献者 Cyrilvallez 主导实现

新增模型支持

本次更新解锁了对多个新模型架构的支持:

  1. Cohere2:Cohere 公司最新一代的商业语言模型
  2. olmo 和 olmo2:由 Allen AI 开发的开源语言模型系列
  3. 高效LM:一种新兴的高效语言模型架构

这些新增支持使得 TGI 能够覆盖更广泛的模型生态,满足不同场景下的文本生成需求。

关键技术优化

除了核心功能更新外,本次发布还包含多项重要技术优化:

  1. FlashInfer 0.2 支持:升级了 FlashInfer 推理引擎,提供更高效的推理路径
  2. Marlin 内核升级:更新至 Marlin-kernels 0.3.7 版本,优化了量化推理性能
  3. FP8 支持改进
    • 针对 ROCm 平台添加了 FP8 KV 缓存支持
    • 修复了 CUDA 平台上权重缩放转换的问题
  4. 视觉语言模型增强
    • 修复了 Qwen2-VL 多图像输入时的运行时错误
    • 改进了 Idefics3 模型的支持
  5. 硬件兼容性扩展
    • 完善了 AMD GPU 支持
    • 优化了 Intel CPU/XPU 的闪存解码内核
    • 添加了对 NVIDIA A40 GPU 的官方支持

开发者体验改进

为了提升开发者使用体验,本次更新还包含多项工具链和文档改进:

  1. 构建系统迁移到 uv 替代 poetry,提供更快的依赖解析和安装
  2. 升级 Rust 工具链版本,提高编译效率和安全性
  3. 新增 TPU 使用指南文档,帮助用户更好地在 Google TPU 上部署 TGI
  4. 修复了多个文档中的错误和拼写问题
  5. 改进了 CI/CD 流程,特别是针对 TensorRT-LLM 后端的测试

性能优化与问题修复

本次发布还包含多项性能优化和问题修复:

  1. 修复了 OPT-125m 等模型的运行问题
  2. 优化了 Baichuan2-13B 等模型的配置处理
  3. 改进了 StarCoder 模型的多 LoRA 层支持
  4. 修复了 torch 2.6 下 TP=1 时的崩溃问题
  5. 优化了 MoE 模型在量化路径下的表现

总结

Text Generation Inference v3.0.2 通过引入支持 FlashAttention 的 Transformers 后端,显著扩展了框架的模型兼容性,同时保持了高性能标准。结合多项技术优化和新模型支持,这一版本进一步巩固了 TGI 作为生产级文本生成推理解决方案的地位。对于需要在生产环境中部署各类语言模型的组织和开发者来说,这一版本提供了更强大、更灵活的工具集。

登录后查看全文
热门项目推荐

热门内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
860
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
595
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K