SillyTavern项目中的Ollama批量大小优化实践

2025-05-16 12:30:51作者：何举烈Damon

在AI模型推理过程中，内存管理是一个关键的性能优化点。SillyTavern项目近期针对Ollama后端添加了批量大小(batch size)配置支持，这一改进对于资源受限的系统尤为重要。

批量大小的技术意义

批量大小参数决定了模型在单次前向传播中处理的token数量。默认值512适用于大多数场景，但在以下情况下需要调整：

低显存系统：较小的批量值(如256)可减少显存占用，避免OOM(内存不足)错误
大显存系统：增大批量值可能提升推理速度
长上下文场景：处理超长上下文时(如>24K)，小批量有助于稳定运行

实际应用效果

在一台配备Ryzen 2800X、128GB RAM、Quadro P6000(24G)+3070TI(8G)的测试系统中：

使用70B参数模型时，24K以上上下文长度经常出现OOM错误
将批量大小从512降至128后：
- 显存占用减少了约3GB
- 系统稳定性显著提高
- 推理速度反而有所提升

技术实现方式

SillyTavern通过在config.yaml配置文件中添加ollama.batch_size参数来实现这一功能。启动Ollama服务时，该参数会被传递到底层llama.cpp引擎，影响模型加载和推理过程。

配置建议

对于不同硬件配置，建议尝试以下批量大小：

8GB显存：128-256
12-16GB显存：256-384
24GB以上显存：384-512

用户可以通过监控显存占用和推理速度来找到最佳平衡点。这一优化特别适合在资源受限环境下运行大语言模型的场景。

SillyTavern

LLM Frontend for Power Users.

项目地址：https://gitcode.com/GitHub_Trending/si/SillyTavern

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989