FlagEmbedding项目实战：在VLLM中部署BGE-M3文本嵌入模型

2025-05-24 04:06:01作者：史锋燃Gardner

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

背景概述

BGE-M3作为FlagEmbedding项目推出的新一代多语言文本嵌入模型，在语义检索任务中表现出色。本文将详细介绍如何在VLLM推理框架中部署该模型，特别针对CPU环境下的应用场景。

核心挑战

传统部署方式通常依赖GPU资源，但在实际业务场景中，特别是中小规模的知识库检索场景，CPU部署具有以下优势：

降低硬件成本
简化运维复杂度
适合间歇性使用的检索场景

技术实现方案

环境准备

推荐使用官方提供的VLLM Docker容器作为基础环境，该容器已预装必要的CUDA和Python依赖，即使仅使用CPU也能保证环境一致性。

模型加载配置

通过修改VLLM的离线推理示例代码，将模型指定为BGE-M3：

model = "BAAI/bge-m3"
embed_model = LLM(model=model, embedding_mode=True)

CPU优化策略

量化压缩：采用8-bit量化降低模型体积
批处理优化：合理设置batch_size避免内存溢出
线程控制：调整OMP_NUM_THREADS环境变量

典型应用场景

知识文档分块处理
实时语义检索
跨语言内容匹配

性能调优建议

对于短文本（<512 tokens），建议启用模型的高效模式
定期清理缓存避免内存泄漏
结合FAISS等向量数据库构建完整检索流水线

常见问题排查

内存不足时尝试减小chunk_size
首次加载耗时较长属正常现象
注意检查分词器与模型版本的匹配性

总结展望

通过VLLM部署BGE-M3模型，既保持了模型的高性能，又提供了灵活的部署选项。未来可探索：

与ONNX Runtime的集成优化
混合精度计算加速
边缘设备部署方案

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。