Qwen.cpp 开源项目使用教程

2026-01-22 04:02:35作者：薛曦旖Francesca

1、项目介绍

Qwen.cpp 是一个基于 C++ 实现的 Qwen-LM 模型库，旨在为 MacBook 提供实时聊天功能。该项目是 Qwen-LM 的 C++ 实现版本，支持 GGML 格式，具有以下特点：

纯 C++ 实现：基于 ggml，与 llama.cpp 工作方式相同。
纯 C++ tiktoken 实现：支持流式生成和打字机效果。
Python 绑定：提供与 Hugging Face Qwen-7B 类似的高级聊天和流式聊天接口。
硬件支持：支持 x86/arm CPU 和 NVIDIA GPU。
平台支持：支持 Linux 和 MacOS。

2、项目快速启动

准备工作

首先，克隆 Qwen.cpp 仓库到本地：

git clone --recursive https://github.com/QwenLM/qwen.cpp.git
cd qwen.cpp

如果克隆时忘记添加 --recursive 标志，可以在 qwen.cpp 文件夹中运行以下命令：

git submodule update --init --recursive

下载模型

从 Hugging Face 或 modelscope 下载 qwen.tiktoken 文件。

量化模型

使用 convert.py 将 Qwen-LM 转换为量化 GGML 格式。例如，将 fp16 原始模型转换为 q4_0（量化 int4）GGML 模型：

python3 qwen_cpp/convert.py -i Qwen/Qwen-7B-Chat -t q4_0 -o qwen7b-ggml.bin

编译与运行

使用 CMake 编译项目：

cmake -B build
cmake --build build -j --config Release

运行量化后的 Qwen-7B-Chat 模型：

./build/bin/main -m qwen7b-ggml.bin --tiktoken Qwen-7B-Chat/qwen.tiktoken -p 你好

在交互模式下运行模型：

./build/bin/main -m qwen7b-ggml.bin --tiktoken Qwen-7B-Chat/qwen.tiktoken -i

3、应用案例和最佳实践

案例一：实时聊天机器人

Qwen.cpp 可以用于构建实时聊天机器人，支持流式生成和打字机效果，为用户提供流畅的聊天体验。

案例二：智能客服系统

通过 Qwen.cpp 的 Python 绑定，可以轻松集成到现有的智能客服系统中，提供高效的对话生成能力。

最佳实践

模型量化：根据硬件性能选择合适的量化类型，以平衡性能和精度。
多线程优化：利用 OpenBLAS、cuBLAS 或 Metal MPS 加速计算，提升模型推理速度。

4、典型生态项目

1. llama.cpp

llama.cpp 是 Qwen.cpp 的主要灵感来源，提供了类似的 C++ 实现和 GGML 支持。

2. chatglm.cpp

chatglm.cpp 是另一个基于 C++ 的聊天模型实现，与 Qwen.cpp 类似，支持多种硬件和平台。

3. ggml

ggml 是一个用于机器学习模型的张量库，Qwen.cpp 基于 ggml 实现，提供了高效的模型推理能力。

4. tiktoken

tiktoken 是一个用于文本编码的库，Qwen.cpp 提供了纯 C++ 实现的 tiktoken，支持流式生成和打字机效果。

通过这些生态项目，Qwen.cpp 能够与其他开源项目无缝集成，提供更强大的功能和性能。

qwen.cpp

C++ implementation of Qwen-LM

项目地址：https://gitcode.com/gh_mirrors/qw/qwen.cpp

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781