BERTopic项目中UMAP随机性问题的分析与解决方案

2025-06-01 14:32:38作者：范垣楠Rhoda

引言

在自然语言处理领域，主题建模是一项重要的技术，BERTopic作为基于BERT嵌入的主题建模工具，因其出色的表现而广受欢迎。然而，在实际使用过程中，许多开发者可能会遇到一个令人困惑的问题：相同的参数和数据集，多次运行却得到不一致的结果。本文将深入分析这一现象背后的原因，并提供可靠的解决方案。

问题现象

当使用BERTopic进行主题建模时，开发者可能会观察到以下现象：

在同一个Python会话中，使用相同参数多次运行BERTopic，每次得到的结果都不一致
如果每次运行前重启Python内核，则不同会话间的第一次运行结果相同，但同一会话内的多次运行结果仍不一致
这种不一致性主要表现在主题分配和离群点比例上

根本原因分析

经过深入调查，发现问题根源在于UMAP（Uniform Manifold Approximation and Projection）降维过程中的随机性。UMAP是BERTopic默认使用的降维算法，其默认初始化方式"spectral"会引入一定的随机性。

具体来说：

UMAP默认使用谱初始化（init="spectral"），这种方式依赖于ARPACK计算图拉普拉斯矩阵的特征向量
ARPACK在多线程环境或不同BLAS实现下运行时，会产生微小的数值波动
这种数值波动虽然微小，但足以在后续的聚类步骤（如HDBSCAN）中产生不同的结果

解决方案

要解决这个问题，关键在于控制UMAP的随机性。以下是具体解决方案：

方法一：使用随机初始化

将UMAP的初始化方式改为"random"，这种方式使用NumPy的随机数生成器，可以确保结果的可复现性：

umap_model = UMAP(
    n_neighbors=30,
    n_components=5,
    min_dist=0.0,
    metric='cosine',
    random_state=42,
    init='random'  # 关键修改
)

方法二：固定随机种子

即使使用谱初始化，也可以通过固定随机种子来增加结果的一致性：

umap_model = UMAP(
    n_neighbors=30,
    n_components=5,
    min_dist=0.0,
    metric='cosine',
    random_state=42  # 固定随机种子
)

不过需要注意的是，仅设置random_state可能无法完全消除随机性，特别是在多线程环境下。

完整示例代码

以下是确保BERTopic结果可复现的完整代码示例：

from umap import UMAP
from hdbscan import HDBSCAN
from bertopic import BERTopic
from sklearn.feature_extraction.text import CountVectorizer
from bertopic.vectorizers import ClassTfidfTransformer

# 初始化UMAP，确保可复现性
umap_model = UMAP(
    n_neighbors=30,
    n_components=5,
    min_dist=0.0,
    metric='cosine',
    random_state=42,
    init='random'
)

# 初始化HDBSCAN
hdbscan_model = HDBSCAN(
    min_cluster_size=70,
    min_samples=5,
    cluster_selection_epsilon=0.17,
    alpha=1.0
)

# 创建BERTopic模型
topic_model = BERTopic(
    umap_model=umap_model,
    hdbscan_model=hdbscan_model,
    vectorizer_model=CountVectorizer(),
    ctfidf_model=ClassTfidfTransformer(),
    verbose=True
)

# 训练模型
topics, probs = topic_model.fit_transform(documents)