LLMLingua项目中的压缩参数ratio与iterative_size关系解析

2025-06-09 12:27:48作者：乔或婵

To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

项目地址：https://gitcode.com/gh_mirrors/ll/LLMLingua

在自然语言处理领域，提示压缩技术正成为提升大语言模型效率的重要手段。微软开源的LLMLingua项目作为该领域的代表性工具，其核心压缩算法涉及两个关键参数：ratio（压缩比例）和iterative_size（迭代处理尺寸）。本文将深入剖析这两个参数的相互作用机制及其对压缩效果的影响。

压缩算法核心原理

LLMLingua采用基于困惑度(Perplexity, PPL)的token级压缩策略。其核心思想是通过计算文本片段的困惑度分布，确定保留或删除特定token的阈值γ_j。该阈值由以下公式决定：

γ_j = Q_{ratio}(PPL(s_j))

其中Q表示分位数函数，ratio为用户设定的压缩比例，s_j为当前处理的文本片段。

参数交互机制

研究发现，当iterative_size设置较小时（如10），实际压缩结果更接近预设的ratio值。这种现象源于算法对全局PPL分布的估计方式：

动态分布估计：由于无法预先获取完整文本压缩后的真实PPL分布，算法采用分段迭代的方式逐步更新分布估计
采样密度效应：较小的iterative_size意味着在相同文本长度下获得更多的分布采样点，显著提高了分位数估计的准确性
误差累积控制：细粒度的分段处理有效降低了公式(5)中的近似误差，使γ_j阈值更符合预期压缩比例

算法优化方向

当前实现中存在两个潜在的改进空间：

前向学习机制：通过训练显式学习压缩后的前向传播结果，可建立更精确的PPL分布预测模型
曲线拟合补偿：采用数学建模方法补偿估计误差，例如通过拟合PPL分布曲线来修正分位数计算

实践建议

对于实际应用场景，建议开发者：

对短文本优先采用较小的iterative_size（如10-50）
监控实际压缩比例与预设ratio的偏差，作为参数调优的依据
关注后续版本对PPL分布估计的改进更新

该研究不仅揭示了参数间的内在关系，也为提示压缩技术的进一步发展提供了理论依据。随着算法的持续优化，LLMLingua有望在保持语义完整性的同时实现更精确的压缩控制。

LLMLingua

To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

项目地址：https://gitcode.com/gh_mirrors/ll/LLMLingua

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

358

217

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。