LangChain-ChatGLM-Webui全方位部署指南：从环境搭建到生产级应用

2026-04-03 09:23:54作者：盛欣凯Ernestine

1. 环境准备：从零开始的基础配置

1.1 系统要求清单

在开始部署前，请确保您的系统满足以下基本要求：

Python环境：3.8.1或更高版本（建议使用3.9-3.11版本以获得最佳兼容性）
深度学习框架：已安装PyTorch（推荐2.0+版本）

硬件建议：

GPU型号	显存大小	性能表现	适用场景
RTX 3090/4090	24GB	流畅运行所有模型	开发与生产环境
RTX 3080/4080	10GB	可运行int8量化模型	个人学习使用
Tesla T4	16GB	适合云端部署	企业级应用
CPU仅模式	32GB内存	运行速度较慢	紧急测试场景

⚠️ 注意：虽然项目支持CPU运行，但强烈建议使用NVIDIA GPU以获得可用的响应速度。

1.2 基础依赖安装

🔧 操作步骤：

# 更新系统包（Ubuntu/Debian示例）
sudo apt update && sudo apt upgrade -y

# 安装Python及相关工具
sudo apt install -y python3 python3-pip python3-venv

# 验证Python版本
python3 --version  # 应输出3.8.1或更高版本

# 安装PyTorch（根据系统配置选择，此处为CPU版本示例）
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

🔍 验证方法：运行以下命令，若不报错则说明PyTorch安装成功

python3 -c "import torch; print(torch.__version__)"

2. 3种部署方案对比：5分钟启动VS生产级配置

2.1 部署方案对比表

部署方式	操作难度	适用场景	部署时间	优势	劣势
直接安装	⭐⭐	开发测试、个人使用	5-10分钟	配置灵活、调试方便	环境依赖复杂
Docker快速启动	⭐	快速体验、演示环境	3-5分钟	一键部署、环境隔离	自定义配置较复杂
Docker生产配置	⭐⭐⭐	企业级应用、长期部署	15-20分钟	数据持久化、稳定可靠	初始配置较复杂

2.2 直接安装方案（开发测试首选）

🔧 操作步骤：

# 1. 获取项目代码
git clone https://gitcode.com/gh_mirrors/lan/LangChain-ChatGLM-Webui
cd LangChain-ChatGLM-Webui

# 2. 创建并激活虚拟环境
python3 -m venv venv
source venv/bin/activate  # Linux/MacOS
# venv\Scripts\activate  # Windows系统

# 3. 安装依赖包（国内用户推荐清华源）
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 4. 安装ModelScope支持（可选）
pip install modelscope==1.4.3

# 5. 启动Huggingface版本
python3 app.py

🔍 验证方法：

启动后观察控制台输出，出现"Running on http://0.0.0.0:7860"表示成功
打开浏览器访问上述地址，应能看到Web界面

2.3 Docker快速启动（5分钟体验）

🔧 操作步骤：

# 简单版：直接运行预配置镜像
docker run -d --name langchain-ChatGLM-webui \
  --runtime=nvidia --gpus all \
  --network host \
  registry.cn-beijing.aliyuncs.com/public-development-resources/langchain-chatglm-webui:latest

🔍 验证方法：

# 检查容器运行状态
docker ps | grep langchain-ChatGLM-webui

# 查看日志确认启动状态
docker logs -f langchain-ChatGLM-webui

⚠️ 注意：首次运行会自动下载模型，根据网络情况可能需要10-30分钟，请耐心等待

2.4 Docker生产级部署（数据持久化）

🔧 操作步骤：

# 1. 创建数据卷用于模型缓存持久化
docker volume create langchain-ChatGLM-webui-cache

# 2. 启动容器并挂载数据卷
docker run -d --name langchain-ChatGLM-webui \
  --runtime=nvidia --gpus all \
  --network host \
  -v langchain-ChatGLM-webui-cache:/root/.cache/ \
  registry.cn-beijing.aliyuncs.com/public-development-resources/langchain-chatglm-webui:latest

🔍 验证方法：重启容器后检查是否需要重新下载模型，若无需下载则说明数据卷挂载成功

图1：LangChain-ChatGLM-Webui主界面展示

3. 进阶配置：打造专属AI助手

3.1 模型选择与配置

项目支持多种模型组合，可根据硬件条件选择：

🔧 操作步骤：

# 修改配置文件调整默认模型
nano config.py

# 找到以下配置项并修改
LLM_MODEL = "ChatGLM-6B-int8"  # 主模型选择
EMBEDDING_MODEL = "text2vec-base"  # 嵌入模型选择

⚠️ 注意：模型文件较大（通常5-10GB），请确保磁盘有足够空间

3.2 向量库（存储文本语义向量的数据库）配置

对于需要处理大量文档的场景，建议配置外部向量库：

🔧 操作步骤：

# 安装Milvus向量库（示例）
pip install pymilvus

# 修改配置文件启用外部向量库
nano config.py

在配置文件中找到并修改：

VECTOR_STORE_TYPE = "milvus"  # 默认为"chroma"
MILVUS_HOST = "localhost"
MILVUS_PORT = 19530

3.3 多版本启动选项

项目提供多种启动方式，满足不同场景需求：

版本类型	启动命令	特点
Huggingface版	`python3 app.py`	基础版，功能全面
ModelScope版	`cd modelscope && python3 app.py`	适合国内用户
PaddlePaddle版	`cd paddlepaddle && python3 app.py`	百度生态支持

图2：ModelScope版本Web界面

4. 接口调用实战：从API到业务集成

4.1 启动API服务

🔧 操作步骤：

# 安装Jina Serving
pip install jina

# 启动API服务
lc-serve deploy local jina_serving

🔍 验证方法：

# 检查服务是否启动成功
curl http://localhost:8080/health
# 预期响应：{"status":"healthy"}

4.2 API接口详解

4.2.1 初始化模型

curl -X 'POST' \
  'http://localhost:8080/reinit_model' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "large_language_model": "ChatGLM-6B-int8",  # 选择大语言模型
    "embedding_model": "text2vec-base"         # 选择嵌入模型
  }'

响应示例：

{
  "status": "success",
  "message": "Model reinitialized successfully",
  "model_info": {
    "large_language_model": "ChatGLM-6B-int8",
    "embedding_model": "text2vec-base"
  }
}

4.2.2 构建向量库

curl -X 'POST' \
  'http://localhost:8080/vector_store' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "file_path": "./README.md"  # 文档路径
  }'

4.2.3 发送查询请求

curl -X 'POST' \
  'http://localhost:8080/predict' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "input": "ChatGLM-6B的具体局限性？",  # 用户查询
    "use_web": true,                      # 是否启用网络搜索
    "top_k": 3,                           # 检索结果数量
    "history_len": 1,                     # 历史对话长度
    "temperature": 0.01,                  # 生成温度（越低越确定）
    "top_p": 0.1,                         # 核采样参数
    "history": []                         # 历史对话列表
  }'

响应示例：

{
  "response": "ChatGLM-6B是一个基于GLM架构的语言模型，虽然它有很强的能力，但也存在一些局限性...",
  "history": [["ChatGLM-6B的具体局限性？", "ChatGLM-6B是一个基于GLM架构的语言模型..."]],
  "sources": [
    {
      "name": "README.md",
      "content": "..."
    }
  ]
}

图3：HuggingFace版本的交互界面

5. 常见问题诊断：解决90%的部署难题

5.1 模型下载缓慢或失败

问题表现：启动时卡在模型下载环节，或下载到一半失败
解决方案：

# 1. 设置HF镜像（国内用户）
export HF_ENDPOINT=https://hf-mirror.com

# 2. 手动下载模型并放置到指定目录
# 模型存放路径：~/.cache/huggingface/hub/

5.2 GPU内存不足

问题表现：启动时报错"CUDA out of memory"
解决方案：

使用量化版本模型：ChatGLM-6B-int8或ChatGLM-6B-int4
调整配置文件：

# 在config.py中添加
LOAD_IN_8BIT = True  # 启用8位量化
MAX_TOKEN = 1024     # 减少最大token数量

5.3 Web界面无法访问

问题表现：服务启动成功但浏览器无法访问
解决方案：

# 检查端口占用情况
netstat -tulpn | grep 7860

# 检查防火墙设置
sudo ufw allow 7860/tcp

5.4 依赖包版本冲突

问题表现：启动时报错"ImportError"或版本相关错误
解决方案：

# 使用项目推荐的依赖版本
pip install -r requirements.txt --force-reinstall

5.5 Docker容器启动失败

问题表现：docker run后容器立即退出
解决方案：

# 查看详细日志定位问题
docker logs langchain-ChatGLM-webui

# 检查GPU是否可用
docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.7.1-base nvidia-smi

6. 场景化应用：从演示到生产

6.1 本地知识库构建

利用项目的文档处理能力，构建个人或企业知识库：

🔧 操作步骤：

在Web界面点击"上传知识文件"
选择本地文档（支持txt、docx、md等格式）
等待文档处理完成
开始提问与文档相关的问题

图4：支持文档上传的新版Web界面

6.2 企业级API服务部署

为生产环境部署稳定的API服务：

🔧 操作步骤：

# 使用生产级API镜像
docker run -d --name langchain-api \
  --runtime=nvidia --gpus all \
  --network host \
  -v langchain-ChatGLM-webui-cache:/root/.cache/ \
  registry.cn-beijing.aliyuncs.com/public-development-resources/langchain-chatglm-webui:api