KeyBERT与KeyLLM结合使用指南:大语言模型关键词提取技术详解
引言
在自然语言处理领域,关键词提取是一项基础而重要的任务。传统的关键词提取方法通常基于统计特征或简单的机器学习模型,但随着大语言模型(LLM)的兴起,我们现在能够获得更高质量的关键词提取结果。本文将详细介绍如何结合使用KeyBERT和KeyLLM来实现高效、准确的关键词提取。
核心概念
KeyBERT简介
KeyBERT是一个轻量级的关键词提取工具,它利用BERT嵌入来识别文档中最相关的关键词短语。其核心思想是通过比较文档与候选关键词的嵌入相似度来提取关键词。
KeyLLM简介
KeyLLM是基于大语言模型的关键词提取扩展,它可以直接利用LLM的强大语言理解能力来生成或优化关键词。与KeyBERT相比,KeyLLM能够生成更符合语义但可能不在原文中出现的"概念性"关键词。
基础使用场景
1. 纯KeyLLM关键词创建
当我们需要提取概念性关键词(不限于原文词汇)时,可以使用纯KeyLLM模式:
import openai
from keybert.llm import OpenAI
from keybert import KeyLLM
client = openai.OpenAI(api_key="your_api_key")
llm = OpenAI(client)
kw_model = KeyLLM(llm)
documents = ["文档内容示例..."]
keywords = kw_model.extract_keywords(documents)
这种方法的特点是:
- 生成的关键词可能不在原文中直接出现
- 能够捕捉文档的深层语义
- 适合需要概念性标签的场景
2. 基于原文的关键词提取
如果要求关键词必须出现在原文中,可以通过设置check_vocab=True参数:
prompt = """
I have the following document:
[DOCUMENT]
基于上文,提取最能描述文本主题的关键词。
确保只提取文本中出现的关键词。
使用以下逗号分隔格式:
<keywords>
"""
kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, check_vocab=True)
这种方法的特点是:
- 关键词严格来自原文
- 结果更具可解释性
- 适合需要精确匹配的场景
进阶使用技巧
3. 候选关键词优化
当已有初步关键词列表时,可以使用LLM进行优化:
candidate_keywords = [["初步关键词1", "初步关键词2"]]
prompt = """
我有以下文档:
[DOCUMENT]
以及以下候选关键词:
[CANDIDATES]
基于上述信息,优化候选关键词以最好地描述文档主题。
使用逗号分隔格式:
<keywords>
"""
llm = OpenAI(client, prompt=prompt, chat=True)
kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, candidate_keywords=candidate_keywords)
这种方法特别适合:
- 已有初步关键词需要优化
- 需要更专业或更简洁的关键词表达
- 关键词标准化场景
4. 高效关键词提取策略
对于大规模文档集,可以使用嵌入聚类来提高效率:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(documents, convert_to_tensor=True)
kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, embeddings=embeddings, threshold=0.75)
这种方法的核心优势:
- 通过文档相似性聚类减少LLM调用次数
- 显著提升处理大规模文档的效率
- 可通过threshold参数调整聚类粒度
最佳实践:KeyBERT与KeyLLM结合
结合KeyBERT和KeyLLM可以获得两全其美的效果:
from keybert import KeyBERT
kw_model = KeyBERT(llm=llm)
keywords = kw_model.extract_keywords(documents)
这种组合方式的工作流程:
- KeyBERT首先生成初步关键词和文档嵌入
- 基于嵌入相似性对文档进行聚类
- KeyLLM为每个聚类生成最终关键词
- 相同聚类中的文档共享关键词
优势对比:
- 比纯KeyBERT更准确
- 比纯KeyLLM更高效
- 自动处理文档相似性
- 结果兼具准确性和效率
性能优化建议
- 嵌入模型选择:对于非英语文本,考虑使用多语言嵌入模型
- 聚类阈值调整:根据文档集特性调整threshold参数(0.7-0.9通常效果较好)
- 批处理优化:对于大规模文档集,考虑分批处理
- 提示工程:根据具体需求定制LLM提示模板
常见问题解答
Q:KeyBERT和KeyLLM的主要区别是什么? A:KeyBERT基于嵌入相似度提取原文中的关键词,而KeyLLM利用LLM生成可能包含概念性词汇的关键词。
Q:什么时候应该使用纯KeyLLM模式? A:当需要概念性关键词或不严格要求关键词出现在原文中时,纯KeyLLM模式更合适。
Q:如何平衡准确性和效率? A:KeyBERT+KeyLLM组合通常是最佳选择,也可以通过调整聚类阈值来找到适合的平衡点。
结语
KeyBERT与KeyLLM的结合为关键词提取任务提供了灵活而强大的解决方案。无论是需要精确匹配原文的关键词,还是希望获得更抽象的概念性标签,亦或是处理大规模文档集时的效率考量,这套工具组合都能提供相应的解决方案。通过合理配置和参数调整,开发者可以根据具体需求获得最佳的关键词提取效果。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00