AIChat项目中使用Ollama进行RAG时遇到的Segfault问题分析

2025-06-02 20:00:03作者：昌雅子Ethen

问题现象

在使用AIChat项目结合Ollama进行检索增强生成(RAG)时，用户报告了一个稳定性问题：每次第二个RAG请求都会导致Ollama进程崩溃，并出现段错误(segfault)。该问题仅在使用RAG功能时出现，普通对话请求则工作正常。

技术背景

RAG(检索增强生成)是一种结合信息检索和文本生成的技术，它首先从知识库中检索相关信息，然后将这些信息作为上下文提供给语言模型生成回答。在AIChat项目中，这一过程通常涉及两个关键步骤：

使用嵌入模型(embedding model)将查询转换为向量表示
使用生成模型(generative model)基于检索到的上下文生成回答

问题详细分析

错误表现

当用户尝试使用RAG功能时，系统表现出以下行为模式：

第一个RAG请求成功完成

第二个RAG请求失败，并报告以下错误：

Failed to create embedding
Caused by:
    0: Failed to call embeddings api
    1: llama runner process has terminated: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED
         current device: 0, in function cublas_handle at /go/src/github.com/ollama/ollama/llm/llama.cpp/ggml/src/ggml-cuda/common.cuh:644
         cublasCreate_v2(&cublas_handles[device])
       /go/src/github.com/ollama/ollama/llm/llama.cpp/ggml/src/ggml-cuda.cu:101: CUDA error

系统环境

问题出现在以下环境中：

操作系统：Gentoo Linux
AIChat版本：0.20.0
Ollama版本：0.3.5
使用的模型：nomic-embed-text:v1.5(嵌入模型)和llama3.1:8b(生成模型)
硬件：NVIDIA GPU

问题根源

根据错误信息和后续测试，可以确定问题与以下因素相关：

CUDA初始化问题：错误信息表明CUDA的BLAS库(CUBLAS)未能正确初始化
NVIDIA驱动版本：不同版本的NVIDIA驱动表现出不同的行为
批量处理大小：调整嵌入模型的max_batch_size参数会影响问题出现频率

解决方案与建议

临时解决方案

调整批量处理大小：在AIChat配置文件中降低嵌入模型的max_batch_size值(例如设置为51)
```
max_batch_size: 51
```
升级NVIDIA驱动：使用已知稳定的驱动版本(如470.256.02或555.58.02)
更新Ollama版本：确保使用最新版本的Ollama