FlagEmbedding项目中BGE模型的向量相似度计算方式解析

2025-05-25 14:45:55作者：裘旻烁

在自然语言处理领域，向量相似度计算是衡量文本语义相似性的关键技术。FlagEmbedding项目中的BGE模型采用了特殊的向量处理方式，值得深入探讨其背后的技术原理。

归一化向量的特性

BGE模型输出的向量经过了归一化(normalization)处理，这意味着每个向量的长度(模)都被调整为1。这种处理带来了几个重要特性：

向量内积(点积)等于余弦相似度
向量间的欧式距离(L2距离)与余弦相似度存在单调关系
计算效率得到提升

余弦相似度与内积的关系

对于归一化后的向量u和v，它们的余弦相似度可以简化为：

cos(u,v) = u·v / (||u|| * ||v||) = u·v / (1 * 1) = u·v

因此，直接计算两个向量的内积就等同于计算它们的余弦相似度。这种方法不仅保持了语义相似度的准确性，还减少了计算步骤。

L2距离的等价性

虽然L2距离(欧式距离)与余弦相似度是不同的度量方式，但对于归一化向量，它们之间存在确定的数学关系：

||u-v||² = ||u||² + ||v||² - 2u·v = 2 - 2cos(u,v)

这意味着L2距离与余弦相似度在排序结果上是等价的，使用任一种方法都能得到一致的相似度排序。

实际应用中的选择

在实际应用中，选择内积还是L2距离主要考虑以下因素：

计算效率：内积计算通常比L2距离更高效
解释性：余弦相似度值在[-1,1]区间，更直观
框架支持：不同深度学习框架对这两种操作可能有不同的优化

BGE模型选择内积作为默认相似度计算方法，既保证了准确性，又兼顾了计算效率，是经过实践验证的合理选择。

理解这些底层原理有助于开发者在使用FlagEmbedding项目时做出更明智的技术决策，也能更好地解释模型的行为和结果。

FlagEmbedding

Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271