vLLM 开源项目教程

2024-08-07 00:01:27作者：史锋燃Gardner

A high-throughput and memory-efficient inference and serving engine for LLMs

项目地址：https://gitcode.com/gh_mirrors/vl/vllm

项目介绍

vLLM 是一个高性能、内存效率高的推理和服务引擎，专为大型语言模型（LLMs）设计。它通过先进的内存管理技术、连续请求批处理和优化的 CUDA 内核，提供了卓越的吞吐量和响应速度。vLLM 支持多种量化技术，如 GPTQ、AWQ 和 SqueezeLLM，以及 FP8 KV 缓存优化，使其在处理大规模语言模型时表现出色。

项目快速启动

安装 vLLM

首先，通过 pip 安装 vLLM：

pip install vllm

离线推理

使用 vLLM 进行离线推理的示例代码如下：

from vllm import LLM

prompts = ["Hello my name is", "The capital of France is"]  # 示例提示
llm = LLM(model="lmsys/vicuna-7b-v1.3")  # 创建一个 LLM
outputs = llm.generate(prompts)  # 从提示生成文本
print(outputs)

在线服务

启动一个 OpenAI API 兼容的服务器：

python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3

查询服务器：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "lmsys/vicuna-7b-v1.3",
    "prompt": "San Francisco is a",
    "max_tokens": 7,
    "temperature": 0
  }'

应用案例和最佳实践

案例一：LMSYS Vicuna 和 Chatbot Arena

vLLM 的 FastChat-vLLM 集成自四月中旬以来一直支持 LMSYS Vicuna 和 Chatbot Arena。这一集成显著减少了用于服务的 GPU 数量，提高了系统的整体效率。

案例二：高并发请求处理

vLLM 每天平均处理 30,000 个请求，峰值达到 60,000 个，展示了其强大的鲁棒性和高并发处理能力。

典型生态项目

TensorRT-LLM

TensorRT-LLM 是一个高性能的 LLM 服务引擎，与 vLLM 相比，它在某些场景下提供了更优的性能和更低的延迟。

text-generation-inference

text-generation-inference 是一个专注于文本生成推理的开源项目，与 vLLM 结合使用，可以进一步提升文本生成任务的效率和质量。

lmdeploy

lmdeploy 是一个用于部署语言模型的工具包，它与 vLLM 集成，简化了从模型训练到部署的整个流程。

通过这些生态项目的结合，vLLM 可以构建一个全面、高效的语言模型服务生态系统。

A high-throughput and memory-efficient inference and serving engine for LLMs

项目地址：https://gitcode.com/gh_mirrors/vl/vllm

登录后查看全文

热门内容推荐

1 freeCodeCamp Cafe Menu项目中link元素的void特性解析 2 freeCodeCamp课程中屏幕放大器知识点优化分析 3 freeCodeCamp JavaScript高阶函数中的对象引用陷阱解析 4 freeCodeCamp全栈开发课程中测验游戏项目的参数顺序问题解析 5 freeCodeCamp英语课程视频测验选项与提示不匹配问题分析 6 freeCodeCamp音乐播放器项目中的函数调用问题解析 7 freeCodeCamp 课程中关于角色与职责描述的语法优化建议 8 freeCodeCamp博客页面工作坊中的断言方法优化建议 9 freeCodeCamp猫照片应用教程中的HTML注释测试问题分析 10 freeCodeCamp论坛排行榜项目中的错误日志规范要求

最新内容推荐

PyAV项目中关于av_frame_make_writable功能的解析与应用 Cheshire Cat AI核心项目WebSocket连接异常问题分析与解决方案 Dart语言中async函数执行机制深度解析 YooAsset资源管理系统在安卓平台上的资源包加载异常问题分析 Hishtory项目：如何查看完整的命令行历史记录配置状态 Nix安装器在macOS Sonoma系统上的挂载错误分析与解决方案 nanobind中字符类型转换对空字符(\0)的处理问题分析 CodeFever项目Windows环境下Docker客户端的安装指南 Serverpod 异常处理机制的设计与实现深入理解cargo-make中的任务钩子机制

项目优选

收起

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

HarmonyOS-Examples

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

方舟分析器：面向ArkTS语言的静态程序分析框架

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端