KoboldCPP v1.87.4 版本发布：功能全面升级的本地大语言模型推理引擎

2025-06-08 15:41:31作者：申梦珏Efrain

KoboldCPP 是一个基于 llama.cpp 的本地大语言模型推理引擎，它为用户提供了简单易用的方式来运行各种开源大语言模型。作为一个轻量级但功能强大的工具，KoboldCPP 特别适合那些希望在本地环境中运行 AI 模型而不依赖云服务的开发者和研究者。

核心功能更新

1. 嵌入模型支持

本次更新引入了对 GGUF 格式嵌入模型的支持。用户现在可以通过 --embeddingsmodel 参数加载专门的嵌入模型，并通过 /v1/embeddings 或 /api/extra/embeddings 端点访问。这一功能特别适合需要将文本编码为向量表示的应用场景，如语义搜索和向量数据库存储。

2. 语音克隆技术集成

KoboldCPP 现在集成了 OuteTTS 语音克隆技术，允许用户上传 Speaker JSON 文件来创建个性化的语音克隆。这项技术使得生成的语音输出能够模仿特定说话者的声音特征，为语音交互应用开辟了新的可能性。

3. 视觉语言模型增强

项目合并了对 Qwen2.5VL 模型的支持，并修复了 Qwen2VL 在处理多张图片时的问题。这些视觉语言模型能够同时处理文本和图像输入，为多模态应用提供了基础支持。

4. 自动化函数调用机制

通过改进工具调用支持，KoboldCPP 现在能够更好地与 OpenWebUI 等前端配合工作。新增的"自动"模式允许模型自主决定是否需要函数调用以及选择适当的工具，这大大提升了交互的智能化程度。值得注意的是，这一功能需要相对智能的现代模型才能正常工作。

技术架构优化

1. 计算后端改进

项目对 AMD rocwmma 构建检测进行了优化，并改进了 Vulkan 构建流程（现在需要编译着色器）。同时合并了 DP4A Vulkan 增强功能，提升了在 AMD 和 Intel 设备上处理传统量化的性能。

2. 命令行模式

新增的命令行聊天模式(--cli)让 KoboldCPP 回归了类似 llama.cpp 的纯命令行交互方式，为用户提供了更多样化的使用选择。

3. 性能调优

项目引入了量化键值缓存(--quantkv)的灵活配置选项，即使在不使用闪存注意力的情况下也能部分应用量化技术。虽然这种配置可能影响性能，但它为特定场景提供了更多选择。

用户体验提升

1. Kobold Lite 界面增强

内置的 Kobold Lite 界面获得了多项改进：

新增世界信息分组功能，用户可以更高效地组织和管理知识条目
语音克隆上传界面简化了操作流程
多人游戏模式的用户界面更加流畅
提升了视觉模型支持的图像上传分辨率上限

2. 稳定性修复

版本修复了多个关键问题，包括嵌入端点功能、Gemma3 系统标签自动检测、Vulkan DP4A 实现以及数据保存文件处理等。这些修复显著提升了系统的稳定性和可靠性。

跨平台支持

KoboldCPP 继续提供全面的跨平台支持：

Windows 用户可选择标准版、无 CUDA 版或旧 CPU 专用版
Linux 用户有针对不同 CUDA 版本的优化构建
macOS ARM 设备(M1/M2/M3)有专门的优化版本
AMD 用户推荐使用 Vulkan 后端以获得最佳支持

结语

KoboldCPP v1.87.4 标志着该项目进入第三个发展年头，通过持续的创新和改进，它已成为本地运行大语言模型的重要选择之一。本次更新在功能丰富性、技术深度和用户体验等方面都取得了显著进步，为开发者和研究者提供了更强大、更灵活的工具集。无论是需要高级多模态支持的专业用户，还是寻求简单命令行交互的开发者，都能从这个版本中找到价值。

koboldcpp

Run GGUF models easily with a KoboldAI UI. One File. Zero Install.

项目地址：https://gitcode.com/gh_mirrors/ko/koboldcpp

登录后查看全文