深入解析tf-idf-python项目中的TF-IDF算法实现

2025-07-05 11:41:02作者：舒璇辛Bertina

什么是TF-IDF

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于信息检索与文本挖掘的常用加权技术，用于评估一个词对于一个文件集或语料库中的其中一份文件的重要程度。

TF-IDF由两部分组成：

TF（Term Frequency）：词频，表示词条在文档中出现的频率
IDF（Inverse Document Frequency）：逆文档频率，衡量词条的普遍重要性

项目代码结构解析

这个tf-idf-python项目实现了一个完整的TF-IDF计算系统，主要包含以下几个核心功能：

文件加载与预处理
中文分词处理
TF-IDF计算
相似度计算

1. 初始化与停用词处理

def __init__(self):
    self.files = {}
    self.corpus = {}
    self.stop_words = set(())
    content = open('./dictionary/stop_words.txt', 'rb').read().decode('utf-8')
    for line in content.splitlines():
        self.stop_words.add(line)

这部分代码初始化了三个重要数据结构：

files: 存储每个文件的词频统计
corpus: 存储整个语料库的词频统计
stop_words: 存储停用词集合

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉的某些字或词。

2. 文件添加与词频计算

def add_file(self, file_name):
    content = open(file_name, 'rb').read() if file_name[0] == '/' or file_name[0] == 'C' else open('../data/' + file_name, 'rb').read()
    words = jieba.cut(content)
    
    dictionary = {}
    for w in words:
        if len(w.strip()) < 2 or w.lower() in self.stop_words:
            continue
        dictionary[w] = dictionary.get(w, 0.0) + 1.0
        self.corpus[w] = self.corpus.get(w, 0.0) + 1.0
    
    total = sum(dictionary.values())
    for k in dictionary:
        dictionary[k] /= total
    
    self.files[file_name] = dictionary

这部分代码完成了以下工作：

读取文件内容
使用jieba进行中文分词
过滤停用词和单字词
计算每个词的词频(TF)
更新语料库统计

3. TF-IDF计算

def get_tf_idf(self, file_name, top_k):
    tf_idf_of_file = {}
    for w in self.corpus.keys():
        w_in_f = 1.0
        for f in self.files:
            if w in self.files[f]:
                w_in_f += 1.0
        if w in self.files[file_name]:
            tf_idf_of_file[w] = log(len(self.files) / w_in_f) * self.files[file_name][w]
    
    tags = sorted(tf_idf_of_file.items(), key=itemgetter(1), reverse=True)
    return tags[:top_k]

这部分实现了TF-IDF的核心计算：

计算每个词的逆文档频率(IDF)：log(len(self.files) / w_in_f)
计算TF-IDF值：TF * IDF
返回TF-IDF值最高的top_k个词

4. 相似度计算

def similarities(self, list_of_words):
    query_dict = {}
    for w in list_of_words:
        query_dict[w] = query_dict.get(w, 0.0) + 1.0
    
    length = float(len(list_of_words))
    for k in query_dict:
        query_dict[k] = query_dict[k] / length
    
    sims = []
    for f in self.files:
        score = 0.0
        for k in query_dict:
            if k in self.files[f]:
                score += (query_dict[k] / self.corpus[k]) + (self.files[f][k] / self.corpus[k])
        sims.append([f, score])
    
    return sorted(sims, key=itemgetter(1), reverse=True)