TensorRT-LLM 0.19.0版本发布：全面升级的推理引擎与多模态支持

2025-06-04 12:27:14作者：蔡丛锟

TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT-LLM also contains components to create Python and C++ runtimes that execute those TensorRT engines.

项目地址：https://gitcode.com/GitHub_Trending/te/TensorRT-LLM

项目概述

TensorRT-LLM是NVIDIA推出的高性能推理引擎，专门针对大型语言模型(LLM)进行了优化。该项目基于TensorRT构建，通过一系列创新技术显著提升了LLM在NVIDIA GPU上的推理性能。最新发布的0.19.0版本带来了多项重要更新，包括C++运行时的开源、多模态模型支持增强、量化技术改进等关键特性。

核心特性解析

1. C++运行时全面开源

0.19.0版本最显著的改进是将C++运行时完全开源。这一变化意味着开发者现在可以更深入地理解和定制推理引擎的内部工作机制。C++运行时的开源不仅提高了项目的透明度，也为需要高性能推理的场景提供了更多优化可能性。

2. PyTorch工作流增强

新版本对PyTorch工作流进行了多项重要改进：

模型支持扩展：新增了对DeepSeek V3/R1、Llava-Next、BERT、Qwen2VL、Qwen2.5-VL等多种模型的支持，特别是对视觉语言多模态模型的优化尤为突出。
解码器优化：引入了基于C++的解码器实现，支持TopK/TopP采样、禁用词过滤、停止词检测和嵌入偏置等高级功能，显著提升了生成质量的控制能力。
自动调优框架：新增Python基础的自动调优核心框架，特别针对融合MoE和NVFP4线性算子进行了优化，简化了性能调优过程。
混合精度量化：支持更灵活的混合精度量化策略，开发者可以在模型不同部分应用不同的量化精度，平衡性能和精度需求。

3. 多模态与视觉模型支持

0.19.0版本在多模态支持方面取得了显著进展：

InternLM-XComposer2：新增对这一先进多模态模型的支持，增强了图文交互能力。
NVILA视频处理：支持1提示-N媒体和N提示-N媒体两种批处理模式，为视频内容理解提供了强大工具。
STDiT视频生成：为OpenSoRA文本到视频任务提供支持，扩展了生成式AI的应用场景。
视觉编码器优化：通过张量并行和上下文并行技术，显著提升了视觉编码器的处理效率。

4. 量化技术突破

量化技术在本版本中获得了多项改进：

INT4-AWQ支持MoE模型：为混合专家模型提供了更高效的4位量化方案。
FP8量化支持：不仅支持Hopper和Blackwell架构，还扩展到了SM120架构，为更多设备提供了高效推理可能。
FP4量化改进：新增了量化-层归一化融合插件（Llama模型专用）和线性块缩放布局支持，进一步提升了低精度计算的效率。

5. 性能优化与系统增强

多令牌预测(MTP)：新增支持可显著提高生成效率的技术，特别适合长文本生成场景。
FlashMLA支持：为SM90架构提供了优化的矩阵乘加操作实现。
EAGLE支持：新增对这一高效注意力机制的支持，降低了内存占用。
用户缓冲区分配器：提供了更灵活的内存管理方案，优化了资源利用率。

应用场景与开发者价值

TensorRT-LLM 0.19.0版本的这些改进为多个应用场景带来了直接价值：

多模态应用开发：增强的视觉语言模型支持使得开发图文交互、视频理解等复杂应用变得更加容易。
高效推理部署：通过量化技术和自动调优框架，开发者可以在保持模型质量的同时显著降低推理成本。
大规模服务：改进的多节点支持和资源管理功能，使得构建大规模LLM服务更加可靠和高效。
研究创新：对新模型架构和技术的快速支持，为AI研究提供了强大的实验平台。

技术前瞻

从0.19.0版本的更新方向可以看出，TensorRT-LLM正在向以下几个方向发展：

全栈优化：从底层算子到高层API的全面优化，形成完整的性能优化链条。
多模态融合：不断增强对视觉、语音等多模态任务的支持，推动跨模态应用发展。
量化普及：通过不断改进的低精度计算支持，降低大模型部署门槛。
自动化工具：自动调优等工具的引入，使得性能优化更加智能化和易用。

总结

TensorRT-LLM 0.19.0版本通过C++运行时的开源、多模态支持的扩展、量化技术的突破以及系统级的优化，为大型语言模型推理提供了更强大、更灵活的工具集。这些改进不仅提升了性能，也扩展了应用场景，使得开发者能够更高效地构建和部署先进的AI应用。随着项目的持续发展，TensorRT-LLM有望成为大模型推理领域的重要基础设施。

TensorRT-LLM

项目地址：https://gitcode.com/GitHub_Trending/te/TensorRT-LLM

登录后查看全文