trt-llm-as-openai-windows 的安装和配置教程

2025-05-29 10:16:34作者：滕妙奇

1. 项目基础介绍和主要编程语言

trt-llm-as-openai-windows 是一个开源项目，旨在提供一个在 Windows 系统上使用 NVIDIA 的 TensorRT-LLM（Large Language Model）进行本地推理的解决方案。这个项目允许用户在不需要访问云端资源的情况下，利用 GeForce GPU 运行兼容 API 规范的本地服务器。本项目主要使用的编程语言是 Python。

2. 项目使用的关键技术和框架

该项目使用了以下关键技术和框架：

TensorRT-LLM：TensorRT 优化的大语言模型推理库，能够提供高性能的深度学习推理能力。
API 规范：兼容 API 规范的接口，使得本项目可以无缝对接使用相关 API 的应用程序。
Hugging Face：利用 Hugging Face 提供的模型仓库，获取预训练的语言模型和相关配置文件。

3. 项目安装和配置的准备工作及详细安装步骤

准备工作

在开始安装之前，请确保以下准备工作已经完成：

安装了 NVIDIA GPU 驱动，并且能够使用 CUDA。
确保您的系统中已经安装了 Python。
准备了 Llama 2 或 Code Llama 模型的 Hugging Face 仓库链接。

安装步骤

克隆 TensorRT-LLM 的仓库：

git clone https://github.com/NVIDIA/TensorRT-LLM.git

根据您的 GPU 和需求构建 TensorRT 引擎。具体构建步骤请参照 NVIDIA 提供的构建指南。
下载 Llama 2 或 Code Llama 模型及量化权重。可以从 Hugging Face 仓库中获取。

克隆本项目仓库：

git clone https://github.com/NVIDIA/trt-llm-as-openai-windows.git

将下载的 tokenizer 和 config.json 文件放置到项目的 model/ 目录中。
安装必要的 Python 库：
```
pip install -r requirements.txt
```

启动应用。根据您的模型和配置，运行以下命令：

对于 Llama-2-13B-chat 模型：

python app.py --trt_engine_path <TRT Engine文件夹路径> --trt_engine_name <TRT引擎文件名>.engine --tokenizer_dir_path <	TokenNameizer文件夹路径> --port <端口号>

对于 CodeLlama-13B-instruct 模型，添加 --no_system_prompt True 参数：

python app.py --trt_engine_path <TRT Engine文件夹路径> --trt_engine_name <TRT引擎文件名>.engine --tokenizer_dir_path <Token文件夹路径> --port <端口号> --no_system_prompt True

安装客户端库并测试 API：

pip install openai==0.28

然后使用以下代码测试 API：

openai.api_key = "ABC"  # 替换为随机 API Key
openai.api_base = "http://127.0.0.1:8081"  # 本地服务器地址

response = openai.ChatCompletion.create(
    model = "Llama2",
    prompt = "Hello! How are you?"
)

print(response)

以上步骤即为 trt-llm-as-openai-windows 的详细安装和配置过程。按照这些步骤操作，您应该能够在本地启动一个兼容 API 规范的推理服务器。

登录后查看全文

trt-llm-as-openai-windows 的安装和配置教程

1. 项目基础介绍和主要编程语言

2. 项目使用的关键技术和框架

3. 项目安装和配置的准备工作及详细安装步骤

准备工作

安装步骤

热门内容推荐

最新内容推荐

项目优选

trt-llm-as-openai-windows 的安装和配置教程

1. 项目基础介绍和主要编程语言

2. 项目使用的关键技术和框架

3. 项目安装和配置的准备工作及详细安装步骤

准备工作

安装步骤

相关内容推荐

热门内容推荐

最新内容推荐

项目优选