LLMLingua技术架构详解：从数据收集到模型推理的全流程

2026-02-05 04:22:12作者：董灵辛Dennis

To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

项目地址：https://gitcode.com/gh_mirrors/ll/LLMLingua

LLMLingua是一个革命性的提示压缩技术，通过优化大语言模型的提示和KV缓存，实现高达20倍的压缩效果，同时保持最小性能损失。🚀

为什么需要提示压缩？

大语言模型如ChatGPT和GPT-4虽然在泛化能力和推理方面表现出色，但经常面临提示长度限制和基于提示的定价方案等挑战。LLMLingua的诞生就是为了解决这些痛点：

核心痛点包括：

📏 长度限制：遇到token限制无法处理长文本
🧠 上下文丢失：经过大量微调后忘记之前的指令
💰 高昂成本：使用GPT3.5/4 API进行实验时成本过高

LLMLingua技术架构全景

LLMLingua的技术架构包含三个关键阶段：

1. 数据收集与准备阶段

数据收集模块位于experiments/llmlingua2/data_collection/目录下，主要包括：

format_data.py：格式化原始数据
compress.py：通过GPT-4压缩原始上下文
label_word.py：为原始词汇分配标签
filter.py：过滤低质量压缩样本

2. 模型训练与优化阶段

模型训练代码位于experiments/llmlingua2/model_training/目录，支持：

RoBERTa模型训练：基于蒸馏数据进行压缩器训练
多语言支持：支持不同语言的数据压缩
任务无关压缩：适用于各种任务场景

3. 推理压缩与执行阶段

核心推理模块位于llmlingua/prompt_compressor.py

核心压缩技术详解

粗粒度提示压缩

LLMLingua采用小型的、训练良好的语言模型（如GPT2-small、LLaMA-7B）来识别和删除提示中的非必要token。这种方法实现了：

成本节省：减少提示和生成长度，开销最小
扩展上下文支持：增强对更长上下文的支持
知识保留：保持原始提示信息如ICL和推理

细粒度迭代压缩

通过llmlingua/utils.py中的辅助函数，实现：

句子级过滤：保留关键句子
token级过滤：删除冗余词汇
动态预算控制：根据任务需求调整压缩比例

实际应用场景

RAG系统优化

LLMLingua在检索增强生成系统中表现卓越，仅使用1/4的token就能将RAG性能提升高达21.4%！

在线会议处理

对于会议记录等长文本，LLMLingua能够：

压缩会议记录，保留关键决策点
识别发言人角色和重要发言
提取关键行动项和决议

快速上手指南

安装LLMLingua

pip install llmlingua

基础压缩使用

from llmlingua import PromptCompressor

llm_lingua = PromptCompressor()
compressed_prompt = llm_lingua.compress_prompt(
    prompt, 
    instruction="", 
    question="", 
    target_token=200
)

技术优势总结

✨ 五大核心优势：

极致压缩：高达20倍压缩比
性能保持：最小性能损失
成本优化：显著降低API调用成本
易用性：无需额外训练大语言模型
广泛兼容：支持多种模型和框架

扩展与定制

自定义数据训练

如果LLMLingua在某些特定领域任务上表现不佳，可以通过数据收集和模型训练模块训练自己的压缩器。

框架集成

LLMLingua已集成到主流AI框架中：

LangChain：无缝集成检索器
LlamaIndex：支持后处理模块

通过这套完整的技术架构，LLMLingua为大语言模型的应用提供了高效、经济的解决方案，让AI应用更加普及和实用。🎯

To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

项目地址：https://gitcode.com/gh_mirrors/ll/LLMLingua

登录后查看全文

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

昇腾LLM分布式训练框架

flutter_flutter

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

ohos_react_native

React Native鸿蒙化仓库