BCEmbedding 开源项目安装及使用指南

2026-01-16 10:05:01作者：郁楠烈Hubert

1. 项目介绍

BCEmbedding是网易有道推出的一款用于检索增强生成模型(Retrieval Augmented Generation Models)的开源工具包。它提供了跨语言语义表示的能力，尤其适用于双语和多语言环境下的嵌入与重排序任务。BCEmbedding的核心优势在于其强大的双语和跨语言特性，以及对于检索增强场景的高度优化。

双语和跨语言支持：BCEmbedding能够处理多种语言数据，包括但不限于中文、英文等。
高性能语义理解：通过预训练的深度学习模型，BCEmbedding可以捕捉文本之间的深层语义联系，实现高质量的语义检索。
无缝对接主流框架：BCEmbedding易于集成至LangChain和LlamaIndex等流行生态系统，简化了开发流程。
API友好：除了本地部署，还提供了便捷的API服务，使得模型的访问更加简单快捷。

2. 快速启动

安装准备

首先，确保你的环境中已安装Python及相关依赖库。推荐创建一个新的conda环境来避免版本冲突：

conda create --name bce python=3.10 -y
conda activate bce

然后，可以通过以下命令从GitHub克隆项目并安装BCEmbedding：

git clone https://github.com/netease-youdao/BCEmbedding.git
cd BCEmbedding
pip install -v -e .

或者，通过PyPI直接安装最新发布的稳定版：

pip install BCEmbedding==0.1.5

使用示例

假设我们已经准备好了一个列表sentence，其中包含了多个句子：

from BCEmbedding import EmbeddingModel

# 句子列表
sentences = ['这是一个测试句子', '这句话是为了演示如何使用BCEmbedding']

# 初始化嵌入模型
model = EmbeddingModel(model_name_or_path='maidalun1020/bce-embedding-base_v1')

# 提取嵌入向量
embeddings = model.encode(sentences)
print(embeddings)

对于重排序任务，则可采用RerankerModel：

from BCEmbedding import RerankerModel

# 查询和待检索句对
query = '输入查询'
passages = ['待检索单词', '另一个检索示例']
sentence_pairs = [[query, p] for p in passages]

# 初始化重排序模型
reranker_model = RerankerModel(model_name_or_path='maidalun1020/bce-reranker-base_v1')
scores = reranker_model.predict(sentence_pairs)

# 打印相关度分数
for score in scores:
    print(score)