slop-forensics 的项目扩展与二次开发

2025-06-01 17:04:36作者：侯霆垣

项目的基础介绍

slop-forensics 是一个开源工具包，用于生成和分析大型语言模型（LLM）输出中的“slop”现象，即过度表达的词汇模式。该工具可以帮助研究者在各种LLM的输出中识别出重复出现的单词、双词组合（bigrams）和三词组合（trigrams），并对其进行量化分析。

项目的核心功能

数据集生成：标准化生成多个模型的输出，以供后续分析使用。
Slop分析：分析模型的输出，以识别重复的单词、bigrams、trigrams、词汇复杂性以及slop得分。
Slop列表创建：跨模型汇总发现，构建过度表达的单词和短语的规范slop列表。
系统发生树构建：使用简约法（PHYLIP）或层次聚类根据slop配置相似性对模型进行聚类。

项目使用了哪些框架或库？

Python：项目主要使用Python 3.7+版本。
依赖库：包括NLTK、requests等，具体依赖可在项目的requirements.txt文件中查看。
外部工具：可选使用PHYLIP软件进行系统发生树分析。

项目的代码目录及介绍

项目的主要目录结构如下：

slop-forensics/
├── scripts/             # 存放运行脚本，整合管道
│   ├── generate_dataset.py
│   ├── slop_profile.py
│   ├── create_slop_lists.py
│   └── generate_phylo_trees.py
├── slop_forensics/      # 核心库代码
│   ├── config.py
│   ├── dataset_generator.py
│   ├── analysis.py
│   ├── metrics.py
│   ├── phylogeny.py
│   ├── slop_lists.py
│   └── utils.py
├── data/                # 存储内部数据文件，如slop列表等
├── results/             # 存储每个步骤的输出文件
│   ├── datasets/
│   ├── analysis/
│   ├── slop_lists/
│   └── phylogeny/
├── .env.example
├── requirements.txt
└── README.md