BERTopic 0.17.0版本发布：轻量化安装与交互式可视化新特性

2025-06-09 01:36:47作者：乔或婵

项目简介

BERTopic是一个基于Python的开源主题建模工具包，它利用最先进的自然语言处理技术（如BERT等Transformer模型）来识别文档集合中的主题。与传统的主题建模方法相比，BERTopic能够更好地捕捉语义信息，生成更具解释性的主题结构。

版本亮点

1. 轻量化安装选项

0.17.0版本引入了一个重要的改进——轻量化安装选项。这意味着用户现在可以在不安装UMAP和HDBSCAN的情况下使用BERTopic，大大降低了环境配置的复杂度。

技术实现细节：

当检测到UMAP和HDBSCAN未安装时，系统会自动回退到使用PCA（主成分分析）和scikit-learn的HDBSCAN实现
最小安装仅需基础科学计算库：numpy、pandas、scikit-learn等

安装命令示例：

pip install --no-deps bertopic
pip install --upgrade numpy pandas scikit-learn tqdm plotly pyyaml

这一改进特别适合资源受限的环境或需要快速部署的场景。

2. Model2Vec嵌入支持

新版本增加了对Model2Vec作为嵌入后端的支持，为轻量级嵌入提供了新的选择。

技术特点：

Model2Vec是一种高效的嵌入方法，特别适合轻量级应用
可以与BERTopic无缝集成，提供了一种不依赖PyTorch的解决方案

使用示例：

from model2vec import StaticModel
embedding_model = StaticModel.from_pretrained("minishlab/potion-base-8M")
topic_model = BERTopic(embedding_model=embedding_model)

3. LiteLLM表示模型集成

0.17.0版本新增了对LiteLLM作为表示模型的支持，扩展了模型的选择范围。

优势：

提供了更多样化的主题表示选项
增强了模型在不同场景下的适应性

4. 交互式DataMapPlot

可视化功能得到了显著增强，新增了交互式文档数据地图功能。

功能特点：

基于UMAP降维技术将高维嵌入投影到2D空间
交互式可视化允许用户探索文档分布和主题关系

使用示例：

from umap import UMAP
reduced_embeddings = UMAP(n_neighbors=10, n_components=2, 
                        min_dist=0.0, metric='cosine').fit_transform(embeddings)
topic_model.visualize_document_datamap(docs, 
                                     reduced_embeddings=reduced_embeddings, 
                                     interactive=True)