开源项目安装与配置指南：PPL LLM Serving

2025-04-18 17:55:22作者：何将鹤

1. 项目基础介绍

PPL LLM Serving 是一个基于 PPL.LLM 系统的开源项目，主要用于为各种大型语言模型（LLMs）提供服务支持。该项目实现了基于 gRPC 的服务器，并且为 LLaMA 模型提供了推理支持。PPL LLM Serving 的目标是简化大型语言模型在实际生产环境中的应用。

项目主要使用的编程语言是 C++，同时使用 CMake 作为构建系统，Rust 和 cargo 用于 Huggingface Tokenizer。

2. 项目使用的关键技术和框架

gRPC: Google 开源的高性能、跨语言的 RPC 框架，用于构建分布式系统。
PPLNN: 用于神经网络推理的库，支持多种硬件加速。
CUDA Toolkit: NVIDIA 提供的 CUDA 开发工具包，用于 GPU 加速计算。
Huggingface Tokenizer: Huggingface 提供的 Tokenizer 库，用于文本的编码和解码。

3. 项目安装和配置的准备工作

在开始安装前，请确保您的系统满足以下要求：

操作系统：Linux，支持 x86_64 或 arm64 架构
编译器：GCC 版本 >= 9.4.0
构建系统：CMake 版本 >= 3.18
版本控制：Git 版本 >= 2.7.0
GPU 支持：CUDA Toolkit 版本 >= 11.4（推荐 11.6）

安装步骤

安装依赖

在基于 Debian 或 Ubuntu 的系统上，您可以使用以下命令安装所需的依赖：
```
apt-get install build-essential cmake git
```

克隆源代码

克隆项目的 Git 仓库：

git clone https://github.com/openppl-public/ppl.llm.serving.git

构建项目

进入项目目录，运行构建脚本：

cd ppl.llm.serving
./build.sh -DPPLNN_USE_LLM_CUDA=ON -DPPLNN_CUDA_ENABLE_NCCL=ON -DPPLNN_ENABLE_CUDA_JIT=OFF -DPPLNN_CUDA_ARCHITECTURES="80;86;87" -DPPLCOMMON_CUDA_ARCHITECTURES="80;86;87" -DPPL_LLM_ENABLE_GRPC_SERVING=ON

如果您需要启用同步解码功能，可以在编译时添加 -DPPL_LLM_SERVING_SYNC_DECODE=ON 参数。

运行服务端

构建完成后，您可以按照以下方式运行服务端程序：
```
./ppl_llm_server \
--model-dir /path/to/your/model \
--model-param-path /path/to/your/model/params.json \
--tokenizer-path /path/to/your/tokenizer.model \
--host 127.0.0.1 \
--port 23333
```
请确保替换 --model-dir、--model-param-path 和 --tokenizer-path 参数后的路径为您的模型和分词器文件的实际路径。
运行客户端

客户端程序可以发送请求到服务端，进行模型查询：
```
./ppl-build/client_sample 127.0.0.1:23333
```

以上步骤为您提供了从零开始安装和配置 PPL LLM Serving 的基本指南。确保在执行每一步骤时，您都有正确且完整的权限和依赖项。

登录后查看全文

开源项目安装与配置指南：PPL LLM Serving

1. 项目基础介绍

2. 项目使用的关键技术和框架

3. 项目安装和配置的准备工作

安装步骤

项目优选