MTEB项目中文本嵌入聚类评估方法的探讨与改进

2025-07-01 17:37:55作者：魏侃纯Zoe

背景介绍

MTEB(Massive Text Embedding Benchmark)作为文本嵌入评估的重要基准，其聚类任务评估一直采用传统的K-means算法。然而，这种基于欧氏距离的评估方式与文本嵌入模型通常优化的相似性度量(如余弦相似度)之间存在潜在的不匹配问题。

K-means算法本质上依赖于欧几里得距离空间，而大多数现代文本嵌入模型在训练过程中优化的是余弦相似度或内积相似度。这种评估方法与模型优化目标的不一致可能导致：

针对这一问题，提出了一种基于图结构和谱聚类的改进评估方法：

谱聚类特别适合处理图结构数据，能够有效捕捉数据中的非线性结构，这与文本嵌入空间的特性更为匹配。

在韩语文本嵌入评估中，改进方法显示出显著优势：

MTEB评估框架中的聚类任务评估方法存在改进空间，特别是针对优化目标为余弦相似度的文本嵌入模型。基于图结构和谱聚类的评估方法显示出明显优势，能够更准确地反映模型在语义相似性任务中的真实性能。这一发现对文本嵌入模型的评估和比较具有重要意义，值得在更广泛的场景中验证和应用。

登录后查看全文