KeyBERT与KeyLLM结合使用指南:大语言模型关键词提取技术详解
引言
在自然语言处理领域,关键词提取是一项基础而重要的任务。传统的关键词提取方法通常基于统计特征或简单的机器学习模型,但随着大语言模型(LLM)的兴起,我们现在能够获得更高质量的关键词提取结果。本文将详细介绍如何结合使用KeyBERT和KeyLLM来实现高效、准确的关键词提取。
核心概念
KeyBERT简介
KeyBERT是一个轻量级的关键词提取工具,它利用BERT嵌入来识别文档中最相关的关键词短语。其核心思想是通过比较文档与候选关键词的嵌入相似度来提取关键词。
KeyLLM简介
KeyLLM是基于大语言模型的关键词提取扩展,它可以直接利用LLM的强大语言理解能力来生成或优化关键词。与KeyBERT相比,KeyLLM能够生成更符合语义但可能不在原文中出现的"概念性"关键词。
基础使用场景
1. 纯KeyLLM关键词创建
当我们需要提取概念性关键词(不限于原文词汇)时,可以使用纯KeyLLM模式:
import openai
from keybert.llm import OpenAI
from keybert import KeyLLM
client = openai.OpenAI(api_key="your_api_key")
llm = OpenAI(client)
kw_model = KeyLLM(llm)
documents = ["文档内容示例..."]
keywords = kw_model.extract_keywords(documents)
这种方法的特点是:
- 生成的关键词可能不在原文中直接出现
- 能够捕捉文档的深层语义
- 适合需要概念性标签的场景
2. 基于原文的关键词提取
如果要求关键词必须出现在原文中,可以通过设置check_vocab=True参数:
prompt = """
I have the following document:
[DOCUMENT]
基于上文,提取最能描述文本主题的关键词。
确保只提取文本中出现的关键词。
使用以下逗号分隔格式:
<keywords>
"""
kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, check_vocab=True)
这种方法的特点是:
- 关键词严格来自原文
- 结果更具可解释性
- 适合需要精确匹配的场景
进阶使用技巧
3. 候选关键词优化
当已有初步关键词列表时,可以使用LLM进行优化:
candidate_keywords = [["初步关键词1", "初步关键词2"]]
prompt = """
我有以下文档:
[DOCUMENT]
以及以下候选关键词:
[CANDIDATES]
基于上述信息,优化候选关键词以最好地描述文档主题。
使用逗号分隔格式:
<keywords>
"""
llm = OpenAI(client, prompt=prompt, chat=True)
kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, candidate_keywords=candidate_keywords)
这种方法特别适合:
- 已有初步关键词需要优化
- 需要更专业或更简洁的关键词表达
- 关键词标准化场景
4. 高效关键词提取策略
对于大规模文档集,可以使用嵌入聚类来提高效率:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(documents, convert_to_tensor=True)
kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, embeddings=embeddings, threshold=0.75)
这种方法的核心优势:
- 通过文档相似性聚类减少LLM调用次数
- 显著提升处理大规模文档的效率
- 可通过threshold参数调整聚类粒度
最佳实践:KeyBERT与KeyLLM结合
结合KeyBERT和KeyLLM可以获得两全其美的效果:
from keybert import KeyBERT
kw_model = KeyBERT(llm=llm)
keywords = kw_model.extract_keywords(documents)
这种组合方式的工作流程:
- KeyBERT首先生成初步关键词和文档嵌入
- 基于嵌入相似性对文档进行聚类
- KeyLLM为每个聚类生成最终关键词
- 相同聚类中的文档共享关键词
优势对比:
- 比纯KeyBERT更准确
- 比纯KeyLLM更高效
- 自动处理文档相似性
- 结果兼具准确性和效率
性能优化建议
- 嵌入模型选择:对于非英语文本,考虑使用多语言嵌入模型
- 聚类阈值调整:根据文档集特性调整threshold参数(0.7-0.9通常效果较好)
- 批处理优化:对于大规模文档集,考虑分批处理
- 提示工程:根据具体需求定制LLM提示模板
常见问题解答
Q:KeyBERT和KeyLLM的主要区别是什么? A:KeyBERT基于嵌入相似度提取原文中的关键词,而KeyLLM利用LLM生成可能包含概念性词汇的关键词。
Q:什么时候应该使用纯KeyLLM模式? A:当需要概念性关键词或不严格要求关键词出现在原文中时,纯KeyLLM模式更合适。
Q:如何平衡准确性和效率? A:KeyBERT+KeyLLM组合通常是最佳选择,也可以通过调整聚类阈值来找到适合的平衡点。
结语
KeyBERT与KeyLLM的结合为关键词提取任务提供了灵活而强大的解决方案。无论是需要精确匹配原文的关键词,还是希望获得更抽象的概念性标签,亦或是处理大规模文档集时的效率考量,这套工具组合都能提供相应的解决方案。通过合理配置和参数调整,开发者可以根据具体需求获得最佳的关键词提取效果。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00