【亲测免费】 THUDM/GLM-4-Voice 使用教程

2026-01-30 04:24:31作者：农烁颖Land

1. 项目介绍

GLM-4-Voice 是由智谱 AI 推出的一款端到端的语音对话模型。该模型能够理解和生成中英文语音，实现实时语音对话，并且可以根据用户指令调整语音的情感、语调、语速和方言等属性。GLM-4-Voice 由三个主要部分组成：GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder 和 GLM-4-Voice-9B。这些组件共同工作，提供高质量的语音对话体验。

2. 项目快速启动

首先，克隆项目仓库并安装依赖：

git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice.git
cd GLM-4-Voice
pip install -r requirements.txt

启动模型服务：

python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype bfloat16 --device cuda:0

如果需要使用 Int4 精度启动，请运行：

python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype int4 --device cuda:0

启动 web 服务：

python web_demo.py --tokenizer-path THUDM/glm-4-voice-tokenizer --model-path THUDM/glm-4-voice-9b --flow-path ./glm-4-voice-decoder

启动后，可以在浏览器中访问 http://127.0.0.1:8888 来使用 web demo。

3. 应用案例和最佳实践

以下是 GLM-4-Voice 的一些应用案例和最佳实践：

控制情绪：例如，用轻柔的声音引导用户放松。
改变语速：根据需要调整语速，如加快语速以模拟激动情绪。
生成方言：为用户提供方言语音，如东北话、重庆话等。
实时对话：模型支持实时语音对话，可以即时生成回复。

4. 典型生态项目

GLM-4-Voice 的生态项目包括但不限于：

CosyVoice：GLM-4-Voice 使用的 Flow Matching 模型结构。
Transformers：用于初始化和加载模型权重。
GLM-4：GLM-4-Voice-9B 模型的基础。

以上是 GLM-4-Voice 的使用教程，希望对您有所帮助。

GLM-4-Voice

GLM-4-Voice | 端到端中英语音对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4-Voice

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

484

493

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.73 K

712

【亲测免费】 THUDM/GLM-4-Voice 使用教程

1. 项目介绍

2. 项目快速启动

3. 应用案例和最佳实践

4. 典型生态项目

热门内容推荐

最新内容推荐

项目优选

【亲测免费】 THUDM/GLM-4-Voice 使用教程

1. 项目介绍

2. 项目快速启动

3. 应用案例和最佳实践

4. 典型生态项目

相关内容推荐

热门内容推荐

最新内容推荐

项目优选