【限时免费】将bge-reranker-v2-m3模型封装为可随时调用的API服务

2026-02-04 04:54:58作者：咎岭娴Homer

引言：为什么要将模型API化？

在现代软件开发中，将本地模型封装成API服务已成为一种常见的实践。这种做法的好处包括：

解耦：将模型逻辑与前端或其他调用方分离，使得模型可以独立更新和维护，而不会影响其他部分。
复用：通过API服务，模型可以被多个应用（如网站、App、小程序等）调用，避免重复开发。
多语言支持：API服务可以通过HTTP协议被任何编程语言调用，无需关心模型的具体实现语言。
易于扩展：API服务可以部署在云端，支持高并发和负载均衡，满足大规模应用的需求。

本文将指导开发者如何将开源模型bge-reranker-v2-m3封装成一个标准的RESTful API服务，使其能够被随时调用。

技术栈选择

为了实现这一目标，我们选择使用FastAPI作为Web框架。FastAPI是一个轻量级、高性能的Python Web框架，具有以下优势：

高性能：基于Starlette和Pydantic，FastAPI的性能接近Node.js和Go。
自动生成文档：内置Swagger UI和ReDoc，方便开发者调试和测试API。
简单易用：代码简洁，学习成本低，适合快速开发。

此外，FastAPI对异步编程的支持也非常友好，适合处理高并发的推理请求。

核心代码：模型加载与推理函数

首先，我们需要将bge-reranker-v2-m3模型的加载和推理逻辑封装成一个独立的Python函数。以下是核心代码的实现：

from FlagEmbedding import FlagReranker

def load_reranker_model(model_name="BAAI/bge-reranker-v2-m3", use_fp16=True):
    """
    加载reranker模型
    :param model_name: 模型名称
    :param use_fp16: 是否使用FP16加速
    :return: 加载后的模型
    """
    return FlagReranker(model_name, use_fp16=use_fp16)

def compute_scores(query_passage_pairs, normalize=True):
    """
    计算query和passage的相似度分数
    :param query_passage_pairs: 包含query和passage的列表，格式为[['query1', 'passage1'], ['query2', 'passage2']]
    :param normalize: 是否将分数归一化到[0,1]
    :return: 相似度分数列表
    """
    reranker = load_reranker_model()
    scores = reranker.compute_score(query_passage_pairs, normalize=normalize)
    return scores

代码说明：

load_reranker_model函数负责加载模型，支持通过use_fp16参数启用FP16加速。
compute_scores函数接收一个包含query和passage对的列表，返回它们的相似度分数。通过normalize参数可以控制是否对分数进行归一化。

API接口设计与实现

接下来，我们使用FastAPI设计一个接收POST请求的API接口，该接口将调用上述的compute_scores函数，并返回JSON格式的结果。

完整服务端代码

from fastapi import FastAPI
from pydantic import BaseModel
from typing import List

app = FastAPI()

class QueryPassagePair(BaseModel):
    query: str
    passage: str

class ScoreRequest(BaseModel):
    pairs: List[QueryPassagePair]
    normalize: bool = True

@app.post("/compute_scores")
async def compute_scores_api(request: ScoreRequest):
    """
    计算query和passage的相似度分数
    :param request: 包含query-passage对和normalize标志的请求体
    :return: 相似度分数列表
    """
    query_passage_pairs = [[pair.query, pair.passage] for pair in request.pairs]
    scores = compute_scores(query_passage_pairs, request.normalize)
    return {"scores": scores}

代码说明：

定义了两个Pydantic模型QueryPassagePair和ScoreRequest，用于描述请求体的数据结构。
/compute_scores接口接收一个POST请求，请求体中包含多个query-passage对和一个normalize标志。
接口调用compute_scores函数计算分数，并将结果以JSON格式返回。

测试API服务

为了验证API服务是否正常工作，我们可以使用curl命令行工具或Python的requests库发送请求。

使用curl测试

curl -X POST "http://127.0.0.1:8000/compute_scores" \
-H "Content-Type: application/json" \
-d '{"pairs": [{"query": "what is panda?", "passage": "hi"}, {"query": "what is panda?", "passage": "The giant panda is a bear species endemic to China."}], "normalize": true}'

使用Python requests测试

import requests

url = "http://127.0.0.1:8000/compute_scores"
data = {
    "pairs": [
        {"query": "what is panda?", "passage": "hi"},
        {"query": "what is panda?", "passage": "The giant panda is a bear species endemic to China."}
    ],
    "normalize": True
}
response = requests.post(url, json=data)
print(response.json())

预期输出

{
    "scores": [0.00027803096387751553, 0.9948403768236574]
}

部署与性能优化考量

部署方案

Gunicorn：使用Gunicorn作为WSGI服务器，支持多进程运行FastAPI服务。
```
gunicorn -w 4 -k uvicorn.workers.UvicornWorker main:app
```
Docker：将服务打包成Docker镜像，便于在云服务器或Kubernetes集群中部署。