首页
/ 深入解析tf-idf-python项目中的TF-IDF算法实现

深入解析tf-idf-python项目中的TF-IDF算法实现

2025-07-05 15:03:55作者:舒璇辛Bertina

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用加权技术,用于评估一个词对于一个文件集或语料库中的其中一份文件的重要程度。

TF-IDF由两部分组成:

  • TF(Term Frequency):词频,表示词条在文档中出现的频率
  • IDF(Inverse Document Frequency):逆文档频率,衡量词条的普遍重要性

项目代码结构解析

这个tf-idf-python项目实现了一个完整的TF-IDF计算系统,主要包含以下几个核心功能:

  1. 文件加载与预处理
  2. 中文分词处理
  3. TF-IDF计算
  4. 相似度计算

1. 初始化与停用词处理

def __init__(self):
    self.files = {}
    self.corpus = {}
    self.stop_words = set(())
    content = open('./dictionary/stop_words.txt', 'rb').read().decode('utf-8')
    for line in content.splitlines():
        self.stop_words.add(line)

这部分代码初始化了三个重要数据结构:

  • files: 存储每个文件的词频统计
  • corpus: 存储整个语料库的词频统计
  • stop_words: 存储停用词集合

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。

2. 文件添加与词频计算

def add_file(self, file_name):
    content = open(file_name, 'rb').read() if file_name[0] == '/' or file_name[0] == 'C' else open('../data/' + file_name, 'rb').read()
    words = jieba.cut(content)
    
    dictionary = {}
    for w in words:
        if len(w.strip()) < 2 or w.lower() in self.stop_words:
            continue
        dictionary[w] = dictionary.get(w, 0.0) + 1.0
        self.corpus[w] = self.corpus.get(w, 0.0) + 1.0
    
    total = sum(dictionary.values())
    for k in dictionary:
        dictionary[k] /= total
    
    self.files[file_name] = dictionary

这部分代码完成了以下工作:

  1. 读取文件内容
  2. 使用jieba进行中文分词
  3. 过滤停用词和单字词
  4. 计算每个词的词频(TF)
  5. 更新语料库统计

3. TF-IDF计算

def get_tf_idf(self, file_name, top_k):
    tf_idf_of_file = {}
    for w in self.corpus.keys():
        w_in_f = 1.0
        for f in self.files:
            if w in self.files[f]:
                w_in_f += 1.0
        if w in self.files[file_name]:
            tf_idf_of_file[w] = log(len(self.files) / w_in_f) * self.files[file_name][w]
    
    tags = sorted(tf_idf_of_file.items(), key=itemgetter(1), reverse=True)
    return tags[:top_k]

这部分实现了TF-IDF的核心计算:

  1. 计算每个词的逆文档频率(IDF):log(len(self.files) / w_in_f)
  2. 计算TF-IDF值:TF * IDF
  3. 返回TF-IDF值最高的top_k个词

4. 相似度计算

def similarities(self, list_of_words):
    query_dict = {}
    for w in list_of_words:
        query_dict[w] = query_dict.get(w, 0.0) + 1.0
    
    length = float(len(list_of_words))
    for k in query_dict:
        query_dict[k] = query_dict[k] / length
    
    sims = []
    for f in self.files:
        score = 0.0
        for k in query_dict:
            if k in self.files[f]:
                score += (query_dict[k] / self.corpus[k]) + (self.files[f][k] / self.corpus[k])
        sims.append([f, score])
    
    return sorted(sims, key=itemgetter(1), reverse=True)

这部分实现了基于TF-IDF的文档相似度计算,可以用于搜索或推荐系统中。

实际应用示例

项目中的主程序部分展示了如何使用这个TF-IDF实现:

  1. 初始化TF-IDF计算器
  2. 加载指定文件夹中的所有文本文件
  3. 计算每个文件中TF-IDF值最高的20个词
  4. 计算特定关键词(如"任我行")与所有文档的相似度

技术要点解析

  1. 中文分词处理:项目使用了jieba分词库进行中文分词,这是处理中文文本的基础步骤。

  2. 平滑处理:在计算IDF时,使用了加1平滑(w_in_f初始值为1.0),避免除零错误。

  3. 归一化处理:在计算TF时,将词频除以总词数进行归一化,使得不同长度的文档可以公平比较。

  4. 排序算法:使用Python内置的sorted函数和itemgetter进行高效排序。

扩展思考

这个TF-IDF实现可以进一步优化:

  1. 加入词性过滤,只保留名词、动词等有实际意义的词
  2. 实现词干提取或词形还原,将不同形式的词归为同一词干
  3. 加入n-gram支持,考虑短语而不仅仅是单词
  4. 实现增量更新,避免每次添加新文档时重新计算整个语料库

总结

这个tf-idf-python项目提供了一个清晰、简洁的TF-IDF实现,特别适合中文文本处理。通过这个项目,我们可以学习到:

  1. TF-IDF算法的基本原理和实现方式
  2. 中文文本处理的基本流程
  3. 如何构建一个完整的文本分析工具
  4. 信息检索和文本挖掘的基础知识

对于想要学习文本挖掘和信息检索的开发者来说,这是一个很好的学习案例和实践起点。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
192
270
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
909
541
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
341
1.21 K
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
142
188
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
377
387
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
63
58
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.1 K
0
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
87
4