【亲测免费】 GLM-4-9B-Chat模型的安装与使用教程

2026-01-29 12:44:05作者：胡唯隽

引言

在当今人工智能技术飞速发展的背景下，自然语言处理模型在各个领域发挥着越来越重要的作用。GLM-4-9B-Chat作为智谱AI最新一代预训练模型的开源版本，具备多轮对话、网页浏览、代码执行、自定义工具调用和长文本推理等高级功能。本教程旨在帮助您快速了解GLM-4-9B-Chat模型的安装与使用，让您能够轻松驾驭这款强大的AI工具。

安装前准备

系统和硬件要求

操作系统：Linux、Windows或macOS
硬件：CPU（支持AVX2指令集）或GPU（NVIDIA显卡）
内存：至少16GB，推荐32GB以上

必备软件和依赖项

Python 3.8以上版本
PyTorch 1.10.0以上版本（GPU版本需要安装CUDA对应版本）
transformers库（版本>=4.44.0）
vLLM库（若需使用vLLM后端进行推理）

安装步骤

下载模型资源

您可以从Hugging Face模型库中下载GLM-4-9B-Chat模型，地址为：https://huggingface.co/THUDM/glm-4-9b-chat

安装过程详解

安装Python、PyTorch和transformers库：
- Python安装：请根据您的操作系统，从Python官网下载并安装Python 3.8以上版本。
- PyTorch安装：请访问PyTorch官网（https://pytorch.org/），根据您的系统和硬件配置选择合适的版本进行安装。
- transformers安装：在终端或命令提示符中运行以下命令：
```
pip install transformers==4.44.0
```
安装vLLM库（可选）：
```
pip install vllm
```
下载GLM-4-9B-Chat模型：
- 在终端或命令提示符中运行以下命令：
```
transformers-cli download --model THUDM/glm-4-9b-chat
```

基本使用方法

加载模型

使用transformers后端进行加载：

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"  # 根据您的硬件配置选择 "cpu" 或 "cuda"
tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("THUDM/glm-4-9b-chat", torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, trust_remote_code=True).to(device).eval()

使用vLLM后端进行加载：

from transformers import AutoTokenizer
from vllm import LLM
max_model_len, tp_size = 131072, 1  # 根据您的硬件配置选择合适的参数
tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
llm = LLM(
    model="THUDM/glm-4-9b-chat",
    tensor_parallel_size=tp_size,
    max_model_len=max_model_len,
    trust_remote_code=True,
    enforce_eager=True
)

简单示例演示

使用transformers后端进行推理：

query = "你好"
inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True)
inputs = inputs.to(device)
gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用vLLM后端进行推理：

prompt = [{"role": "user", "content": "你好"}]
stop_token_ids = [151329, 151336, 151338]
sampling_params = SamplingParams(temperature=0.95, max_tokens=1024, stop_token_ids=stop_token_ids)
inputs = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
outputs = llm.generate(prompts=inputs, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

参数设置说明

max_length：生成文本的最大长度
do_sample：是否使用采样方法生成文本
top_k：采样时考虑的最优k个token
temperature：采样时的温度参数，影响生成文本的多样性
stop_token_ids：停止生成文本的token ID列表

结论

通过本教程，您已经掌握了GLM-4-9B-Chat模型的安装与使用方法。在实际应用中，您可以尝试调整参数设置，以便更好地满足您的需求。此外，我们还提供了以下学习资源，供您参考：

模型官方文档：https://huggingface.co/THUDM/glm-4-9b-chat
transformers库官方文档：https://huggingface.co/docs/transformers

希望您能够充分发挥GLM-4-9B-Chat模型的潜力，为您的项目带来更多可能。

glm-4-9b-chat

项目地址：https://gitcode.com/hf_mirrors/ai-gitcode/glm-4-9b-chat

登录后查看全文

【亲测免费】 GLM-4-9B-Chat模型的安装与使用教程

引言

安装前准备

系统和硬件要求

必备软件和依赖项

安装步骤

下载模型资源

安装过程详解

基本使用方法

加载模型

简单示例演示

参数设置说明

结论

热门内容推荐

项目优选

【亲测免费】 GLM-4-9B-Chat模型的安装与使用教程

引言

安装前准备

系统和硬件要求

必备软件和依赖项

安装步骤

下载模型资源

安装过程详解

基本使用方法

加载模型

简单示例演示

参数设置说明

结论

相关内容推荐

热门内容推荐

项目优选