首页
/ KeyBERT与KeyLLM结合使用指南:大语言模型关键词提取技术详解

KeyBERT与KeyLLM结合使用指南:大语言模型关键词提取技术详解

2026-02-04 05:07:20作者:乔或婵

引言

在自然语言处理领域,关键词提取是一项基础而重要的任务。传统的关键词提取方法通常基于统计特征或简单的机器学习模型,但随着大语言模型(LLM)的兴起,我们现在能够获得更高质量的关键词提取结果。本文将详细介绍如何结合使用KeyBERT和KeyLLM来实现高效、准确的关键词提取。

核心概念

KeyBERT简介

KeyBERT是一个轻量级的关键词提取工具,它利用BERT嵌入来识别文档中最相关的关键词短语。其核心思想是通过比较文档与候选关键词的嵌入相似度来提取关键词。

KeyLLM简介

KeyLLM是基于大语言模型的关键词提取扩展,它可以直接利用LLM的强大语言理解能力来生成或优化关键词。与KeyBERT相比,KeyLLM能够生成更符合语义但可能不在原文中出现的"概念性"关键词。

基础使用场景

1. 纯KeyLLM关键词创建

当我们需要提取概念性关键词(不限于原文词汇)时,可以使用纯KeyLLM模式:

import openai
from keybert.llm import OpenAI
from keybert import KeyLLM

client = openai.OpenAI(api_key="your_api_key")
llm = OpenAI(client)
kw_model = KeyLLM(llm)

documents = ["文档内容示例..."]
keywords = kw_model.extract_keywords(documents)

这种方法的特点是:

  • 生成的关键词可能不在原文中直接出现
  • 能够捕捉文档的深层语义
  • 适合需要概念性标签的场景

2. 基于原文的关键词提取

如果要求关键词必须出现在原文中,可以通过设置check_vocab=True参数:

prompt = """
I have the following document:
[DOCUMENT]

基于上文,提取最能描述文本主题的关键词。
确保只提取文本中出现的关键词。
使用以下逗号分隔格式:
<keywords>
"""

kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, check_vocab=True)

这种方法的特点是:

  • 关键词严格来自原文
  • 结果更具可解释性
  • 适合需要精确匹配的场景

进阶使用技巧

3. 候选关键词优化

当已有初步关键词列表时,可以使用LLM进行优化:

candidate_keywords = [["初步关键词1", "初步关键词2"]]
prompt = """
我有以下文档:
[DOCUMENT]

以及以下候选关键词:
[CANDIDATES]

基于上述信息,优化候选关键词以最好地描述文档主题。
使用逗号分隔格式:
<keywords>
"""

llm = OpenAI(client, prompt=prompt, chat=True)
kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, candidate_keywords=candidate_keywords)

这种方法特别适合:

  • 已有初步关键词需要优化
  • 需要更专业或更简洁的关键词表达
  • 关键词标准化场景

4. 高效关键词提取策略

对于大规模文档集,可以使用嵌入聚类来提高效率:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(documents, convert_to_tensor=True)

kw_model = KeyLLM(llm)
keywords = kw_model.extract_keywords(documents, embeddings=embeddings, threshold=0.75)

这种方法的核心优势:

  • 通过文档相似性聚类减少LLM调用次数
  • 显著提升处理大规模文档的效率
  • 可通过threshold参数调整聚类粒度

最佳实践:KeyBERT与KeyLLM结合

结合KeyBERT和KeyLLM可以获得两全其美的效果:

from keybert import KeyBERT

kw_model = KeyBERT(llm=llm)
keywords = kw_model.extract_keywords(documents)

这种组合方式的工作流程:

  1. KeyBERT首先生成初步关键词和文档嵌入
  2. 基于嵌入相似性对文档进行聚类
  3. KeyLLM为每个聚类生成最终关键词
  4. 相同聚类中的文档共享关键词

优势对比:

  • 比纯KeyBERT更准确
  • 比纯KeyLLM更高效
  • 自动处理文档相似性
  • 结果兼具准确性和效率

性能优化建议

  1. 嵌入模型选择:对于非英语文本,考虑使用多语言嵌入模型
  2. 聚类阈值调整:根据文档集特性调整threshold参数(0.7-0.9通常效果较好)
  3. 批处理优化:对于大规模文档集,考虑分批处理
  4. 提示工程:根据具体需求定制LLM提示模板

常见问题解答

Q:KeyBERT和KeyLLM的主要区别是什么? A:KeyBERT基于嵌入相似度提取原文中的关键词,而KeyLLM利用LLM生成可能包含概念性词汇的关键词。

Q:什么时候应该使用纯KeyLLM模式? A:当需要概念性关键词或不严格要求关键词出现在原文中时,纯KeyLLM模式更合适。

Q:如何平衡准确性和效率? A:KeyBERT+KeyLLM组合通常是最佳选择,也可以通过调整聚类阈值来找到适合的平衡点。

结语

KeyBERT与KeyLLM的结合为关键词提取任务提供了灵活而强大的解决方案。无论是需要精确匹配原文的关键词,还是希望获得更抽象的概念性标签,亦或是处理大规模文档集时的效率考量,这套工具组合都能提供相应的解决方案。通过合理配置和参数调整,开发者可以根据具体需求获得最佳的关键词提取效果。

登录后查看全文
热门项目推荐
相关项目推荐