【免费下载】 FlagEmbedding项目BGE模型详解：从原理到实践

2026-02-04 04:18:11作者：侯霆垣

引言

FlagEmbedding项目中的BGE(Bilingual Generative Embeddings)模型是一种强大的文本嵌入生成工具，特别适合处理双语文本场景。本文将深入解析BGE及其升级版BGE-v1.5的模型结构、工作原理及使用方法，帮助开发者更好地理解和使用这一工具。

环境准备

在开始之前，需要安装必要的Python包：

%pip install -U transformers FlagEmbedding

这里我们主要需要两个包：transformers用于加载预训练模型，FlagEmbedding则提供了封装好的BGE模型接口。

模型结构与加载

BGE模型基于BERT架构，具体来说：

采用BERT-base作为基础模型
包含12层Transformer编码器
隐藏层维度为768
使用标准的BERT分词器

我们可以这样加载模型和分词器：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-base-en-v1.5")
model = AutoModel.from_pretrained("BAAI/bge-base-en-v1.5")

值得注意的是，BGE和BGE-v1.5的模型结构完全相同，区别主要在于训练数据和训练方式。

文本编码过程详解

1. 分词处理

首先，我们需要将文本输入转换为模型可以理解的token ID序列：

sentences = ["embedding", "I love machine learning and nlp"]
inputs = tokenizer(
    sentences, 
    padding=True, 
    truncation=True, 
    return_tensors='pt', 
    max_length=512
)

分词后的结果包含：

input_ids: token ID序列
token_type_ids: 用于区分不同句子的标记
attention_mask: 指示哪些位置是有效token

BERT风格的分词会为每个句子添加[CLS](ID=101)和[SEP](ID=102)特殊token。

2. 获取隐藏状态

将分词结果输入模型，获取最后一层的隐藏状态：

last_hidden_state = model(**inputs, return_dict=True).last_hidden_state

last_hidden_state的形状为[batch_size, sequence_length, hidden_dim]，即每个token对应一个768维的向量。

3. 池化策略

BGE模型采用特殊的池化策略来获取句子级别的嵌入表示：

def pooling(last_hidden_state: torch.Tensor, pooling_method='cls', attention_mask: torch.Tensor = None):
    if pooling_method == 'cls':
        return last_hidden_state[:, 0]
    elif pooling_method == 'mean':
        s = torch.sum(last_hidden_state * attention_mask.unsqueeze(-1).float(), dim=1)
        d = attention_mask.sum(dim=1, keepdim=True).float()
        return s / d

关键点：BGE模型训练时使用的是[CLS]token的隐藏状态作为句子表示(pooling_method='cls')，这与常见的均值池化(mean)不同。如果错误使用均值池化，会导致性能显著下降。

4. 归一化处理

最后，我们对得到的句子向量进行归一化：

embeddings = torch.nn.functional.normalize(embeddings, dim=-1)

归一化后的向量更适合计算余弦相似度等度量。

完整编码函数

将上述步骤整合为一个完整的编码函数：

def _encode(sentences, max_length=512, convert_to_numpy=True):
    # 处理单句输入情况
    input_was_string = False
    if isinstance(sentences, str):
        sentences = [sentences]
        input_was_string = True
    
    # 分词
    inputs = tokenizer(
        sentences, 
        padding=True, 
        truncation=True, 
        return_tensors='pt', 
        max_length=max_length
    )
    
    # 获取隐藏状态
    last_hidden_state = model(**inputs, return_dict=True).last_hidden_state
    
    # 池化
    embeddings = pooling(
        last_hidden_state, 
        pooling_method='cls', 
        attention_mask=inputs['attention_mask']
    )
    
    # 归一化
    embeddings = torch.nn.functional.normalize(embeddings, dim=-1)
    
    # 转换为numpy数组
    if convert_to_numpy:
        embeddings = embeddings.detach().numpy()
    
    return embeddings[0] if input_was_string else embeddings

使用FlagEmbedding封装接口

FlagEmbedding项目提供了更高级的封装接口，使用起来更加简便：

from FlagEmbedding import FlagModel

model = FlagModel('BAAI/bge-base-en-v1.5')
embeddings = model.encode(sentences)

这个封装接口内部实现了与我们上面手动编写的相同逻辑，但额外提供了：

自动批处理
GPU支持
并行计算
更高效的内存管理

性能对比

我们可以验证手动实现的编码函数与封装接口的输出是否一致：

# 手动实现
embeddings_manual = _encode(sentences)
scores_manual = embeddings_manual @ embeddings_manual.T

# 封装接口
embeddings_api = model.encode(sentences)
scores_api = embeddings_api @ embeddings_api.T

两者的输出结果完全一致，验证了我们手动实现的正确性。