pgvector项目中相似度分数计算的最佳实践

2025-05-14 08:02:32作者：瞿蔚英Wynne

在使用pgvector进行向量相似度搜索时，正确计算相似度分数是一个关键环节。本文将深入探讨如何正确获取0到1范围内的相似度分数，特别是针对OpenAI的text-embedding-3-small嵌入模型。

相似度分数计算原理

pgvector提供了多种向量相似度计算方法，其中最常见的是余弦相似度。余弦相似度衡量的是两个向量在方向上的相似程度，而不考虑它们的大小。理论上，余弦相似度的范围应该在-1到1之间：

1表示完全相同的方向
-1表示完全相反的方向
0表示正交（无关）

然而，当使用某些预训练的嵌入模型（如OpenAI的text-embedding-3-small）时，由于向量已经被归一化处理，实际计算中可能会出现一些特殊情况。

常见问题分析

在使用归一化嵌入向量时，开发者可能会遇到相似度分数集中在2附近的情况。这是因为：

归一化后的向量长度为1
余弦距离计算公式为：1 - 余弦相似度
对于归一化向量，内积等于余弦相似度

当使用负内积(<#>)操作符时，实际上是计算了负的余弦相似度。因此，1 - (n.vector <#> vector)实际上等于1 - (-cosθ)，也就是1 + cosθ。

由于归一化向量的cosθ范围是-1到1，这个表达式的结果范围就变成了0到2，而不是预期的0到1。

正确的转换方法

要将结果正确映射到0到1的范围，可以使用以下公式：

1 - (余弦距离 / 2)

或者更直接地使用：

(1 + 余弦相似度) / 2

这个转换保证了：

完全相似的向量得分为1
完全无关的向量得分为0.5
完全相反的向量得分为0

实际应用示例

对于OpenAI的text-embedding-3-small模型，正确的相似度搜索函数应该修改为：

CREATE OR REPLACE FUNCTION get_similar_nodes (
  vector vector(1536),
  user_id uuid,
  threshold float DEFAULT 0.6,
  count int DEFAULT 200
)
RETURNS TABLE (
  node node,
  similarity_score float
)
LANGUAGE sql
AS $$
  SELECT 
    n AS node,
    (1 - (n.vector <=> vector)) / 2 AS similarity_score
  FROM node n
  JOIN memory m ON m.id = n.memory_id
  WHERE m.user_id = user_id
    AND (1 - (n.vector <=> vector)) / 2 >= threshold
  ORDER BY similarity_score DESC
  LIMIT LEAST(count, 200);
$$;