PPL.LLM Serving 使用教程
2025-04-18 09:52:24作者:范靓好Udolf
1. 项目介绍
PPL.LLM Serving 是 PPL.LLM 系统的一部分,它基于 PPL.nn 开发,用于支持各种大型语言模型(LLMs)的服务。本项目提供了一套基于 gRPC 的服务器,并支持 LLaMA 模型的推理。
2. 项目快速启动
安装依赖
在基于 Debian 或 Ubuntu 的系统上,首先安装必要的依赖:
apt-get install build-essential cmake git
克隆源代码
克隆项目源代码:
git clone https://github.com/openppl-public/ppl.llm.serving.git
构建项目
使用以下命令构建项目:
./build.sh -DPPLNN_USE_LLM_CUDA=ON -DPPLNN_CUDA_ENABLE_NCCL=ON -DPPLNN_ENABLE_CUDA_JIT=OFF -DPPLNN_CUDA_ARCHITECTURES="80;86;87" -DPPLCOMMON_CUDA_ARCHITECTURES="80;86;87" -DPPL_LLM_ENABLE_GRPC_SERVING=ON
如果需要启用同步解码功能(主要用于离线推理),编译时加入 -DPPL_LLM_SERVING_SYNC_DECODE=ON
。
运行服务器
配置好模型和分词器路径后,使用以下命令运行服务器:
./ppl_llm_server \
--model-dir /data/model \
--model-param-path /data/model/params.json \
--tokenizer-path /data/tokenizer.model \
--tensor-parallel-size 1 \
--top-p 0.0 \
--top-k 1 \
--max-tokens-scale 0.94 \
--max-input-tokens-per-request 4096 \
--max-output-tokens-per-request 4096 \
--max-total-tokens-per-request 8192 \
--max-running-batch 1024 \
--max-tokens-per-step 8192 \
--host 127.0.0.1 \
--port 23333
运行客户端
客户端可以通过 gRPC 发送请求查询模型:
./ppl-build/client_sample 127.0.0.1:23333
离线推理
还可以使用以下命令进行离线推理:
./offline_inference \
--model-dir /data/model \
--model-param-path /data/model/params.json \
--tokenizer-path /data/tokenizer.model \
--tensor-parallel-size 1 \
--top-p 0.0 \
--top-k 1 \
--max-tokens-scale 0.94 \
--max-input-tokens-per-request 4096 \
--max-output-tokens-per-request 4096 \
--max-total-tokens-per-request 8192 \
--max-running-batch 1024 \
--max-tokens-per-step 8192 \
--host 127.0.0.1 \
--port 23333
3. 应用案例和最佳实践
- 案例一: 使用 PPL.LLM Serving 在生产环境中为用户提供实时的自然语言处理服务。
- 案例二: 结合 PPL.LLM Serving 和其他开源项目,例如前端界面框架,开发完整的自然语言处理应用程序。
4. 典型生态项目
- PPL.nn: PPL.nn 是一个基于 CUDA 的神经网络推理引擎,它能够高效地执行深度学习模型。
- LLaMA: LLaMA 是一个开源的大型语言模型,它支持多种自然语言处理任务。
- Huggingface Tokenizer: Huggingface 提供的分词器工具,用于处理自然语言文本数据。
热门项目推荐
相关项目推荐
- DDeepSeek-R1-0528DeepSeek-R1-0528 是 DeepSeek R1 系列的小版本升级,通过增加计算资源和后训练算法优化,显著提升推理深度与推理能力,整体性能接近行业领先模型(如 O3、Gemini 2.5 Pro)Python00
cherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端TSX028unibest
unibest - 最好用的 uniapp 开发框架。unibest 是由 uniapp + Vue3 + Ts + Vite5 + UnoCss + WotUI 驱动的跨端快速启动模板,使用 VS Code 开发,具有代码提示、自动格式化、统一配置、代码片段等功能,同时内置了大量平时开发常用的基本组件,开箱即用,让你编写 uniapp 拥有 best 体验。TypeScript00
热门内容推荐
1 freeCodeCamp课程中语义HTML测验集的扩展与优化2 freeCodeCamp全栈开发课程中关于HTML可访问性讲座的字幕修正3 freeCodeCamp 课程中关于角色与职责描述的语法优化建议 4 freeCodeCamp购物清单项目中的全局变量使用问题分析5 freeCodeCamp论坛搜索与帖子标题不一致问题的技术分析6 freeCodeCamp计算机基础课程中主板与CPU概念的精确表述 7 freeCodeCamp金字塔生成器项目中的循环条件优化解析8 freeCodeCamp React与Redux教程中Provider组件验证缺失问题分析9 freeCodeCamp猫照片应用项目中"catnip"拼写问题的技术解析10 freeCodeCamp注册表单项目中的字体样式优化建议
最新内容推荐
pre-commit-hooks项目中实现通用子进程执行的方法 Knative Serving中队列代理指标被干扰问题的分析与解决方案 Knative Serving中长请求处理的优雅终止机制解析 Ibis项目中使用Trino后端处理结构体数组时的SQL转换问题分析 Knative Serving中Activator路径切换导致的RPS下降问题分析 Knative Serving 中关于就绪探针路径解析问题的技术分析 Ibis项目中Trino连接器Catalog参数使用问题解析 cppfront编译器版本号显示问题的技术分析 Knative Serving网络层演进:从Istio到Kubernetes Gateway API的轻量化之路 使用AppManager实现Android应用跨设备备份与恢复的技术指南
项目优选
收起

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
414
315

React Native鸿蒙化仓库
C++
90
155

openGauss kernel ~ openGauss is an open source relational database management system
C++
45
112

本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
268
399

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
50
13

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TSX
302
28

本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
341
209

🎉 基于Spring Boot、Spring Cloud & Alibaba、Vue3 & Vite、Element Plus的分布式前后端分离微服务架构权限管理系统
Vue
84
60

前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。
官网地址:https://matechat.gitcode.com
625
72

轻量级、语义化、对开发者友好的 golang 时间处理库
Go
7
2