Spark NLP中KMeans聚类算法输入类型错误的解决方案

2025-06-17 00:37:47作者：霍妲思

在使用Spark NLP进行文本聚类分析时，开发者可能会遇到一个常见的技术问题：当尝试将BERT嵌入向量输入到KMeans聚类算法时，系统抛出类型不匹配的异常。本文将深入分析这一问题的根源，并提供完整的解决方案。

问题现象分析

当开发者使用Spark NLP的BERT嵌入模型处理文本数据后，通过EmbeddingsFinisher转换器将嵌入向量输出为Spark ML可识别的格式，然后直接连接KMeans聚类算法时，会出现以下错误提示：

Column features must be of type equal to one of the following types: 
[struct<type:tinyint,size:int,indices:array<int>,values:array<double>>, 
array<double>, array<float>] 
but was actually of type array<struct<type:tinyint,size:int,indices:array<int>,values:array<double>>>

根本原因

这个问题的核心在于KMeans算法与BERT嵌入输出之间的数据结构不匹配：

BERT嵌入的输出特性：BERT模型为文本中的每个token生成一个独立的嵌入向量。对于包含N个token的句子，BERT会输出N个768维的向量（假设使用标准BERT模型）。
KMeans的输入要求：Spark ML的KMeans算法要求每行数据必须包含一个单一的数值向量作为特征输入。这个向量可以是稀疏或稠密向量，但必须是单一向量。
数据结构差异：直接使用BERT嵌入的输出会得到一个数组结构，其中每个元素是一个token的向量表示，而KMeans期望的是一个扁平化的单一向量。

解决方案

要解决这个问题，我们需要在BERT嵌入和KMeans之间添加一个向量聚合步骤。以下是两种可行的解决方案：

方案一：使用SentenceEmbeddings转换器

Spark NLP提供了SentenceEmbeddings转换器，专门用于将token级别的嵌入聚合成句子级别的嵌入：

sentenceEmbeddings = SentenceEmbeddings() \
    .setInputCols(["document", "embeddings"]) \
    .setOutputCol("sentence_embeddings") \
    .setPoolingStrategy("AVERAGE")

embeddingsFinisher = EmbeddingsFinisher() \
    .setInputCols("sentence_embeddings") \
    .setOutputCols("features") \
    .setOutputAsVector(True)

pipeline = Pipeline(stages=[
    documentAssembler,
    regexTokenizer,
    bertEmbedding_model,
    sentenceEmbeddings,
    embeddingsFinisher,
    cluster_alg
])

这种方法通过对所有token向量进行平均池化，生成一个代表整个句子的单一向量。

方案二：手动处理嵌入向量

如果开发者需要更灵活的处理方式，可以在EmbeddingsFinisher之后添加自定义的向量处理步骤：

from pyspark.sql.functions import udf
from pyspark.ml.linalg import Vectors, VectorUDT
import numpy as np

# 定义UDF将数组向量转换为单一向量
def average_vectors(vectors):
    if not vectors:
        return Vectors.dense([0.0]*768)
    avg = np.mean([v.toArray() for v in vectors], axis=0)
    return Vectors.dense(avg)

average_vectors_udf = udf(average_vectors, VectorUDT())

# 在管道中使用
data = embeddingsFinisher.transform(data)
data = data.withColumn("features", average_vectors_udf("features"))