【免费下载】 CppJieba 中文分词库使用教程

2026-01-16 10:30:56作者：滑思眉Philip

1. 项目的目录结构及介绍

CppJieba 是一个基于 C++ 实现的中文分词库，其 GitHub 仓库地址为：https://github.com/yanyiwu/cppjieba。以下是项目的目录结构及其介绍：

cppjieba/
├── appveyor.yml
├── build
├── ChangeLog.md
├── CMakeLists.txt
├── deps
│   └── limonp
├── dict
│   ├── hmm_model
│   ├── idf.utf8
│   ├── jieba.dict.utf8
│   ├── stop_words.utf8
│   └── user.dict.utf8
├── include
│   └── cppjieba
│       ├── DictTrie.hpp
│       ├── FullSegment.hpp
│       ├── HMMModel.hpp
│       ├── HMMSegment.hpp
│       ├── Jieba.hpp
│       ├── KeywordExtractor.hpp
│       └── ...
├── README.md
├── README_EN.md
├── test
│   ├── CMakeLists.txt
│   ├── demo.cpp
│   ├── load_test.cpp
│   ├── testdata
│   └── unittest
└── ...

目录结构说明

appveyor.yml: AppVeyor 持续集成配置文件。
build: 用于存放编译生成的文件。
ChangeLog.md: 项目更新日志。
CMakeLists.txt: CMake 构建配置文件。
deps: 项目依赖库，如 limonp。
dict: 分词所需的词典文件。
include: 包含所有头文件，主要使用 cppjieba 目录下的头文件。
README.md: 项目介绍文档。
README_EN.md: 英文项目介绍文档。
test: 包含测试文件和测试数据。

2. 项目的启动文件介绍

CppJieba 的启动文件主要是 test 目录下的 demo.cpp，它展示了如何使用 CppJieba 进行中文分词。以下是 demo.cpp 的简要介绍：

#include "cppjieba/Jieba.hpp"

using namespace std;

const char* const DICT_PATH = "dict/jieba.dict.utf8";
const char* const HMM_PATH = "dict/hmm_model.utf8";
const char* const USER_DICT_PATH = "dict/user.dict.utf8";
const char* const IDF_PATH = "dict/idf.utf8";
const char* const STOP_WORD_PATH = "dict/stop_words.utf8";

int main(int argc, char** argv) {
    cppjieba::Jieba jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
    vector<string> words;
    string query = "这是一个测试";
    jieba.Cut(query, words, true);
    cout << limonp::Join(words.begin(), words.end(), "/") << endl;
    return 0;
}

启动文件说明

#include "cppjieba/Jieba.hpp": 引入 CppJieba 头文件。
const char* const DICT_PATH: 定义词典路径。
cppjieba::Jieba jieba: 创建 Jieba 对象。
jieba.Cut(query, words, true): 对输入文本进行分词。
limonp::Join(words.begin(), words.end(), "/"): 将分词结果用 / 连接并输出。

3. 项目的配置文件介绍

CppJieba 的配置文件主要位于 dict 目录下，这些文件包含了分词所需的词典和模型。以下是主要的配置文件及其作用：

jieba.dict.utf8: 主词典文件，包含常用词汇及其词频。
hmm_model.utf8: 隐马尔可夫模型文件，用于新词发现。

登录后查看全文