首页
/ 中文文本规范化项目教程

中文文本规范化项目教程

2024-08-21 12:31:15作者:瞿蔚英Wynne

项目目录结构及介绍

chinese_text_normalization/
├── README.md
├── setup.py
├── requirements.txt
├── data/
│   ├── raw/
│   └── processed/
├── src/
│   ├── __init__.py
│   ├── normalize.py
│   └── utils.py
├── tests/
│   ├── __init__.py
│   └── test_normalize.py
└── config/
    └── config.yaml
  • README.md: 项目说明文档。
  • setup.py: 项目安装脚本。
  • requirements.txt: 项目依赖文件。
  • data/: 存放原始数据和处理后的数据。
    • raw/: 原始数据文件夹。
    • processed/: 处理后的数据文件夹。
  • src/: 源代码文件夹。
    • __init__.py: 初始化文件。
    • normalize.py: 文本规范化核心代码。
    • utils.py: 工具函数代码。
  • tests/: 测试代码文件夹。
    • __init__.py: 初始化文件。
    • test_normalize.py: 文本规范化测试代码。
  • config/: 配置文件夹。
    • config.yaml: 项目配置文件。

项目的启动文件介绍

项目的启动文件是 src/normalize.py。该文件包含了文本规范化的核心逻辑,可以通过以下命令运行:

python src/normalize.py

项目的配置文件介绍

项目的配置文件是 config/config.yaml。该文件包含了项目的各种配置参数,例如数据路径、模型参数等。以下是一个示例配置文件的内容:

data_path: "data/raw"
output_path: "data/processed"
model_params:
  max_length: 100
  batch_size: 32

通过修改 config.yaml 文件,可以调整项目的运行参数。

登录后查看全文
热门项目推荐