Higress项目中AI缓存插件对接Ollama的技术实践

2025-06-09 02:53:11作者：劳婵绚Shirley

🤖 AI Gateway | AI Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/hi/higress

在Higress网关项目中，AI缓存插件(ai-cache)是一个重要的功能组件，它能够缓存AI模型的响应结果，提高系统性能并降低计算资源消耗。本文将详细介绍如何将AI缓存插件与Ollama开源大语言模型平台进行对接的技术实现过程。

环境准备与部署

首先需要搭建Ollama本地服务环境，部署LLaMA3.2模型，并通过ngrok进行内网穿透，使外部能够访问到本地的Ollama服务。测试阶段直接调用Ollama的API接口/api/embed可以正常获取嵌入向量结果，这为后续的插件对接奠定了基础。

插件开发与构建

在Higress项目中，AI缓存插件位于plugins/wasm-go/extensions/ai-cache目录下。使用tinygo工具进行WASM模块的构建：

tinygo build -o main.wasm -scheduler=none -target=wasi -gc=custom -tags="custommalloc nottinygc_finalizer proxy_wasm_version_0_2_100" ./

同时还需要构建AI代理插件(ai-proxy)，它负责与Ollama服务进行实际的通信交互。

对接实现要点

实现Ollama对接的核心在于ollama.go文件的开发，主要包含以下几个关键部分：

配置参数定义：设置了Ollama服务的默认域名、端口号、模型名称和API端点路径等常量。
初始化结构体：定义了ollamaProviderInitializer结构体，实现了配置初始化和验证方法。
请求构造与响应解析：
- constructParameters方法负责构建请求参数，包括输入文本和模型名称
- parseTextEmbedding方法用于解析Ollama返回的嵌入向量结果
核心接口实现：通过GetEmbedding方法完成整个嵌入向量获取流程，包括参数构造、HTTP请求发送和结果回调处理。

配置与调试

在Envoy配置文件中，需要正确设置Ollama服务的相关参数：

指定Ollama服务的域名和端口号
配置TLS传输安全层，设置正确的SNI(Server Name Indication)
调整超时时间等参数以适应实际网络环境

调试过程中遇到的主要问题是服务端口配置不正确，导致请求失败。通过明确指定Ollama服务的端口号解决了这一问题。

性能优化建议

在实际部署时，可以考虑以下优化措施：

连接池管理：合理配置HTTP连接池参数，提高连接复用率
超时控制：根据网络状况和模型响应时间调整超时设置
错误重试：实现适当的错误重试机制，提高服务可靠性
日志监控：完善日志记录，便于问题排查和性能分析

总结

通过本文介绍的技术方案，成功实现了Higress网关中AI缓存插件与Ollama服务的对接。这一集成方案不仅扩展了Higress的AI能力，也为其他类似AI服务的集成提供了参考范例。在实际生产环境中，还需要根据具体需求进行参数调优和性能测试，以确保系统稳定高效运行。

🤖 AI Gateway | AI Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/hi/higress

登录后查看全文

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库