Neo4j知识图谱构建器部署与多语言适配实践

2025-06-24 07:29:23作者：明树来

项目背景

Neo4j知识图谱构建器(Neo4j Knowledge Graph Builder)是一个基于React和FastAPI构建的开源项目，用于创建和管理知识图谱。该项目包含前端React应用和后端FastAPI服务，通常需要部署在云服务器上供团队协作使用。

部署挑战与解决方案

防火墙环境下的部署问题

在公有云VM部署时遇到的主要挑战是防火墙环境下的跨域访问限制。由于浏览器同源策略要求，前端React应用需要与后端API在同一域名下访问。作者最初尝试通过Nginx反向代理将前后端统一到同一域名下，但遇到了404错误。

经过分析发现，Docker容器间的网络通信存在限制。最终采用的解决方案是：

前端直接暴露端口访问
- 保持前端原始配置，不通过反向代理
- 直接通过http://服务器IP:4040访问前端
后端通过Nginx反向代理
- 配置Nginx将/kgbuilderapi路径代理到后端服务
- 允许特定端口通过防火墙
后端添加CORS支持
- 在FastAPI应用中添加CORSMiddleware
- 配置允许所有来源的跨域请求

app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"]
)

多语言评估指标适配

项目中的评估指标最初仅支持英语，为了支持中文等其它语言，作者进行了以下改进：

环境变量配置
- 在.env文件中添加LANGUAGE变量
- 通过docker-compose.yml传递给后端容器
升级ragas版本
- 将ragas升级到0.2.11版本
- 该版本支持多语言指标适配
自定义AnswerRelevancy指标
- 创建适配目标语言的answer_relevancy函数
- 使用async/await处理异步提示适配

def adapted_answer_relevancy(llm, embeddings):
    answer_relevancy = AnswerRelevancy(
        name="answer_relevancy", strictness=3, embeddings=embeddings
    )
    
    async def adapt_prompt():
        adapted_prompts = await answer_relevancy.adapt_prompts(language=LANGUAGE, llm=llm)
        return adapted_prompts
    
    adapted_prompts = asyncio.run(adapt_prompt())
    answer_relevancy.set_prompts(**adapted_prompts)
    return answer_relevancy

部署架构建议

对于生产环境部署，建议采用以下架构：

前端服务
- 使用Nginx作为静态文件服务器
- 配置适当的缓存策略
- 启用HTTPS加密
后端服务
- 使用Gunicorn或Uvicorn作为应用服务器
- 配置合理的worker数量
- 启用日志记录和监控
数据库连接
- 使用连接池管理Neo4j连接
- 配置适当的超时和重试策略
- 启用TLS加密连接

性能优化建议

嵌入模型优化
- 根据目标语言选择合适的嵌入模型
- 考虑使用量化模型减少内存占用
- 启用模型缓存机制
评估指标优化
- 对长文本评估进行分块处理
- 实现异步批量评估
- 缓存评估结果
资源监控
- 监控GPU/CPU使用率
- 跟踪内存消耗
- 设置资源使用阈值告警

总结

通过本文介绍的部署方案，成功解决了Neo4j知识图谱构建器在防火墙环境下的部署问题，并实现了对中文等多语言的支持。这些实践经验对于类似的知识图谱项目部署具有参考价值，特别是在需要跨域访问和多语言支持的场景下。

未来可以考虑进一步优化前端反向代理方案，使其能够与后端服务统一域名访问，同时保持安全性和性能。此外，持续完善多语言支持，特别是非拉丁语系语言的评估指标适配，将大大提升项目的国际化能力。

llm-graph-builder

Neo4j graph construction from unstructured data

项目地址：https://gitcode.com/GitHub_Trending/ll/llm-graph-builder

登录后查看全文