FlagEmbedding项目中LangChain集成BGE模型的技术解析

2025-05-25 13:38:46作者：冯梦姬Eddie

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

在自然语言处理领域，文本嵌入模型的质量直接影响下游任务的性能。FlagEmbedding项目中的BGE(BAAI General Embedding)模型因其出色的表现受到广泛关注。本文将深入探讨如何通过LangChain框架正确集成BGE模型，特别是针对中文场景的应用。

模型封装类的区别与选择

LangChain为HuggingFace模型提供了两种不同的封装方式：

HuggingFaceEmbeddings：通用型封装，适用于所有HuggingFace开源的嵌入模型，对文档和查询的处理方式相同。
HuggingFaceBgeEmbeddings：专为BGE系列模型优化，内置了针对中英文模型的不同查询指令(query instruction)，更适合检索任务。

对于简单的文本相似度计算任务，两者均可胜任；但在检索增强生成(RAG)等场景下，后者能更好地发挥BGE模型的优势。

中文文本相似度计算实践

以比较"北京到上海的动车票"和"上海到北京的动车票"的相似度为例，推荐以下实现方式：

from langchain.embeddings import HuggingFaceBgeEmbeddings
import numpy as np

# 模型初始化（中文小模型示例）
model = HuggingFaceBgeEmbeddings(
    model_name="BAAI/bge-small-zh-v1.5",
    model_kwargs={'device': 'cuda'},
    encode_kwargs={'normalize_embeddings': True}
)

# 嵌入生成与相似度计算
texts = ['北京到上海的动车票','上海到北京的动车票']
embeddings = np.asarray(model.embed_documents(texts))
similarity_matrix = embeddings @ embeddings.T

关键参数说明：

normalize_embeddings：设为True时计算余弦相似度
device：指定GPU加速
中文模型自动识别，无需手动设置query_instruction

高级应用建议

批量处理优化：对于大规模文本，建议实现批处理以提升效率
相似度阈值：实际应用中应设定相似度阈值，如>0.8视为语义相似
混合精度：可通过model_kwargs={'torch_dtype':'float16'}减少显存占用
长文本处理：BGE模型对512token以上的文本会自动截断，需注意信息损失

通过合理选择模型封装类和参数配置，开发者可以充分发挥BGE模型在中文NLP任务中的强大能力，为语义搜索、问答系统等应用提供高质量的文本表示基础。

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

flutter_flutter

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。