LibreChat本地模型部署指南：使用llama-server对接QwQ-32B模型

2025-05-07 23:37:57作者：卓艾滢Kingsley

增强版ChatGPT克隆：特性包括OpenAI、GPT-4 Vision、Bing、Anthropic、OpenRouter、Google Gemini、AI模型切换、消息搜索、langchain、DALL-E-3、ChatGPT插件、OpenAI功能、安全多用户系统、预设，完全开源用于自托管。更多特性正在开发中。

项目地址：https://gitcode.com/GitHub_Trending/li/LibreChat

在本地部署大型语言模型时，LibreChat与llama-server的组合提供了一个高效的解决方案。本文将详细介绍如何配置LibreChat以使用本地运行的QwQ-32B模型，帮助开发者快速搭建私有化AI对话系统。

核心配置要点

LibreChat的配置文件需要特别注意几个关键参数才能正确识别本地模型服务：

baseURL设置：必须使用host.docker.internal而非localhost，因为Docker容器需要特殊地址访问宿主机服务
模型名称匹配：配置中的模型名称必须与llama-server加载的模型文件名完全一致
fetch参数：本地模型服务建议设为false以避免自动获取模型列表

完整配置示例

以下是经过验证的有效配置方案：

version: 1.2.1
cache: true

endpoints:
  custom:      
    - name: "llama-server"   
      apiKey: "1234"
      baseURL: "http://host.docker.internal:8080/v1"
      models:
        default: ["QwQ-32B-Q6_K.gguf"]
        fetch: false
      titleConvo: true
      titleModel: "QwQ-32B-Q6_K.gguf"
      summarize: false
      summaryModel: "QwQ-32B-Q6_K.gguf"
      forcePrompt: false
      modelDisplayLabel: "QwQ-32B"

Docker部署最佳实践

建议直接修改主docker-compose.yml文件而非使用override方案，确保配置持久化：

volumes:
  - type: bind
    source: ./.env
    target: /app/.env
  - type: bind  
    source: ./librechat.yaml
    target: /app/librechat.yaml
  - ./images:/app/client/public/images
  - ./uploads:/app/uploads
  - ./logs:/app/api/logs