Harbor项目中使用非Llama.cpp推理引擎的配置指南

2025-07-10 21:48:45作者：庞队千Virginia

Effortlessly run LLM backends, APIs, frontends, and services with one command.

项目地址：https://gitcode.com/gh_mirrors/harbor11/harbor

Harbor作为一个开源项目，提供了灵活的AI服务部署方案。虽然默认情况下集成了Ollama和Llama.cpp作为推理引擎，但实际应用中用户可能需要使用其他推理引擎如VLLM。本文将详细介绍如何在Harbor项目中配置和使用非默认推理引擎。

核心配置方法

Harbor提供了简洁的命令行工具来管理默认服务配置。要永久性地从Ollama切换到VLLM，只需执行以下两条命令：

harbor defaults rm ollama
harbor defaults add vllm

这个配置变更会直接影响后续的服务启动行为，使系统默认使用VLLM作为推理引擎。

技术注意事项

使用VLLM作为推理引擎时，开发者需要注意几个关键技术点：

单模型限制：当前版本中，Harbor不支持同时运行同一服务的多个实例。这意味着每次只能运行一个模型，如需更换模型，必须执行完整的服务停止(down)、重新配置和重新启动(up)流程。
平台兼容性：VLLM目前没有提供ARM架构的Docker镜像构建，这意味着在MacOS设备上可能无法正常使用。
服务集成度：相比默认的Ollama/Llama.cpp方案，VLLM与Harbor的集成度稍低，部分功能可能受限。

高级配置方案

Harbor在v0.1.21版本中引入了harbor profile功能，这为不同推理引擎的配置提供了更灵活的解决方案。通过profile功能，用户可以：

创建多个配置方案，快速在不同推理引擎间切换
保存特定模型的最佳参数组合
针对不同应用场景定制专属配置

最佳实践建议

对于需要在生产环境中使用非Llama.cpp推理引擎的用户，建议：

充分测试目标模型在VLLM上的性能表现
建立完善的配置变更记录，便于问题排查
考虑使用Harbor的profile功能管理多个配置方案
关注项目更新，及时获取对新引擎的更好支持

通过合理配置，Harbor项目完全能够支持多种推理引擎，满足不同场景下的AI服务部署需求。

Effortlessly run LLM backends, APIs, frontends, and services with one command.

项目地址：https://gitcode.com/gh_mirrors/harbor11/harbor

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库