首页
/ 在nano-graphrag项目中集成本地Embedding服务的实践指南

在nano-graphrag项目中集成本地Embedding服务的实践指南

2025-06-28 05:47:56作者:郦嵘贵Just

背景介绍

nano-graphrag是一个基于图结构的检索增强生成(RAG)框架,它允许开发者自定义各种组件来满足特定需求。其中,文本嵌入(Embedding)功能是RAG系统的核心组件之一,负责将文本转换为向量表示。本文将详细介绍如何在nano-graphrag项目中集成本地部署的Embedding服务。

本地Embedding服务集成方案

当需要在nano-graphrag中使用本地Embedding服务时,我们需要创建一个自定义的Embedding函数。以下是实现这一目标的详细步骤:

1. 创建自定义Embedding函数

首先,我们需要定义一个异步函数来处理文本嵌入请求。这个函数需要满足nano-graphrag的接口规范:

from typing import List
import numpy as np
import aiohttp
from nano_graphrag.utils import wrap_embedding_func_with_attrs

@wrap_embedding_func_with_attrs(embedding_dim=512, max_token_size=1024)
async def custom_embedding(texts: List[str]) -> np.ndarray:
    url = "http://127.0.0.1:9997/v1/embeddings"
    headers = {
        "Content-Type": "application/json",
        "Authorization": "Bearer YOUR_API_KEY"
    }
    payload = {
        "model": "BAAI-bge-small-zh-v1.5",
        "input": texts
    }
    
    async with aiohttp.ClientSession() as session:
        async with session.post(url, json=payload, headers=headers) as response:
            if response.status != 200:
                raise Exception(f"Failed to get embeddings: {response.status}")
            data = await response.json()
            embeddings = np.array([dp["embedding"] for dp in data["data"]])
            return embeddings

2. 在GraphRAG初始化时使用自定义Embedding

创建GraphRAG实例时,将自定义的Embedding函数传入:

rag = GraphRAG(
    working_dir=WORKING_DIR,
    embedding_func=custom_embedding,
    best_model_func=deepseepk_model_if_cache,
    cheap_model_func=deepseepk_model_if_cache,
)

Jupyter Notebook环境下的特殊处理

在Jupyter Notebook环境中运行异步代码时,可能会遇到事件循环冲突的问题。这是因为Jupyter本身已经运行了一个事件循环。解决方法是使用nest_asyncio库:

import nest_asyncio
nest_asyncio.apply()

这段代码允许在已经运行的事件循环中再次运行异步代码,解决了"RuntimeError: This event loop is already running"错误。

性能优化建议

  1. 批处理优化:确保本地Embedding服务支持批量处理,这样可以减少网络请求次数
  2. 连接池管理:重用aiohttp的ClientSession实例可以提高性能
  3. 错误处理增强:添加重试机制和更详细的错误日志
  4. 缓存机制:考虑实现本地缓存,避免重复计算相同文本的嵌入

常见问题排查

  1. 连接问题:确保本地Embedding服务已启动且端口正确
  2. 认证问题:检查API密钥是否正确配置
  3. 输入格式:确认输入文本格式符合服务端要求
  4. 维度匹配:确保自定义Embedding的维度与wrap_embedding_func_with_attrs中声明的一致

总结

通过自定义Embedding函数,我们可以轻松地将本地部署的Embedding服务集成到nano-graphrag项目中。这种方法不仅提供了更大的灵活性,还能根据具体需求选择最适合的Embedding模型。在实现过程中,需要注意异步编程的特殊性,特别是在Jupyter Notebook等交互式环境中使用时。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
24
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
271
2.56 K
flutter_flutterflutter_flutter
暂无简介
Dart
561
125
fountainfountain
一个用于服务器应用开发的综合工具库。 - 零配置文件 - 环境变量和命令行参数配置 - 约定优于配置 - 深刻利用仓颉语言特性 - 只需要开发动态链接库,fboot负责加载、初始化并运行。
Cangjie
183
13
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
cangjie_runtimecangjie_runtime
仓颉编程语言运行时与标准库。
Cangjie
128
105
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
357
1.86 K
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.02 K
443
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.03 K
606
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
732
70