LLMLingua项目中的Big Bench Hard提示压缩技术解析

2025-06-09 12:50:03作者：虞亚竹Luna

[EMNLP'23, ACL'24] To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

项目地址：https://gitcode.com/gh_mirrors/ll/LLMLingua

在自然语言处理领域，提示工程对大型语言模型的性能表现至关重要。微软开源的LLMLingua项目提供了一种高效的提示压缩技术，本文重点解析其在Big Bench Hard(BBH)基准测试中的应用细节和技术实现。

核心压缩参数配置

LLMLingua对BBH的思维链(CoT)提示进行压缩时，采用了以下关键技术配置：

目标令牌控制：通过target_token参数设定预期保留的令牌数量，实际压缩结果会略低于设定值。例如在1-shot约束条件下，目标值设为约300时可实现269个令牌的实际压缩效果。
关键令牌保留：force_tokens参数设置为保留换行符和常见标点符号("\n,!,?,.,Q:,A:,So the answer is")，确保提示的语法结构和关键信息完整性。
数字处理：force_reserve_digit设为False，允许对数字内容进行压缩。
上下文级过滤：启用use_context_level_filter并设置context_level_target_token为target_token的两倍，这种设计能智能保留1-2个最具代表性的CoT示例。

技术实现特点

项目采用列表形式传入BBH的3个CoT示例提示，而非拼接为单个字符串。这种处理方式使得上下文级过滤器能够有效工作，根据语义重要性自动选择保留最相关的示例。

值得注意的是，压缩率(ratio)设置为0.33时，实际可能获得超过4倍的压缩效果。这种"超预期压缩"现象源于算法对冗余信息的智能识别和去除能力。

约束条件理解

项目中提到的"1-shot/half-shot约束"是指：

1-shot约束：保留完整的一个示例
half-shot约束：保留部分示例内容

这种约束机制通过动态调整压缩强度，在保持提示有效性的同时最大化压缩效率。实际应用中，开发者需要根据目标令牌数适当调高target_token设定值，以补偿算法保守压缩的特性。

实践建议

对于希望复现BBH压缩效果的开发者，建议：

采用列表形式组织多个CoT示例
目标令牌数设置应比预期值高10-15%
优先启用上下文级过滤功能
保留关键标点和问答标记

LLMLingua的这种提示压缩技术显著提升了大型语言模型处理复杂任务时的效率，为资源受限环境下的模型部署提供了实用解决方案。通过精细的参数调控，开发者可以在提示简洁性和模型性能之间找到最佳平衡点。

[EMNLP'23, ACL'24] To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

项目地址：https://gitcode.com/gh_mirrors/ll/LLMLingua

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统