PASE 项目启动与配置教程

2025-05-21 21:17:00作者：尤峻淳Whitney

1. 项目目录结构及介绍

PASE（Problem Agnostic Speech Encoder）项目的目录结构如下：

pase/
├── ASR/                      # 用于自动语音识别（ASR）的相关文件
├── cfg/                      # 配置文件目录
│   ├── frontend/             # 前端（编码器）配置文件
│   └── workers/              # 工人（workers）配置文件
├── data/                     # 数据集目录
├── downstream_prep/          # 下游任务数据预处理
├── emorec/                   # 情感识别相关文件
├── make_trainset_statistics.py  # 计算训练集统计信息的脚本
├── make_trainset_statistics.sh  # 计算训练集统计信息的shell脚本
├── precompute_aco_data.py     # 预计算aco数据的脚本
├── requirements.txt          # 项目依赖
├── setup.py                  # 项目安装脚本
├── train.py                  # 训练脚本
├── unsupervised_data_cfg_librispeech.py  # 生成数据配置文件的脚本
└── __init__.py              # 初始化文件

ASR/：包含用于自动语音识别任务的相关代码和配置文件。
cfg/：存储项目所需的所有配置文件，分为前端配置和工人配置。
data/：存放数据集文件和生成的统计信息文件。
downstream_prep/：包含用于下游任务数据预处理的代码。
emorec/：包含情感识别相关的代码。
make_trainset_statistics.py 和 make_trainset_statistics.sh：用于计算训练集的统计信息，以便进行数据归一化。
precompute_aco_data.py：预计算数据增强（aco augmentation）所需的脚本。
requirements.txt：列出项目依赖的Python包。
setup.py：用于本地安装项目，以便可以在其他Python脚本中导入PASE模块。
train.py：项目的主训练脚本，用于启动训练过程。
unsupervised_data_cfg_librispeech.py：用于生成数据配置文件的脚本，基于LibriSpeech数据集。
__init__.py：初始化PASE模块，使其可以在其他Python脚本中导入。

2. 项目的启动文件介绍

项目的启动文件是 train.py。该脚本负责加载配置、数据集、模型，并开始训练过程。以下是一些重要的命令行参数：

--batch_size：每次训练时使用的批次大小。
--epoch：训练的总轮数。
--save_path：训练过程中模型权重保存的路径。
--num_workers：训练时使用的子进程数，用于并行加载数据。
--net_cfg：工人配置文件的路径。
--fe_cfg：前端（编码器）配置文件的路径。
--data_cfg：数据配置文件的路径。
--min_lr 和 --fe_lr：学习率参数。
--data_root：数据集的根目录。
--stats：训练集统计信息的路径。
--lrdec_step 和 --lrdecay：学习率衰减的步数和衰减率。

3. 项目的配置文件介绍

项目的配置文件主要位于 cfg/ 目录下，分为前端配置和工人配置。

前端配置（cfg/frontend/）：定义了前端编码器（例如PASE或PASE+）的配置，包括模型的架构、超参数等。
工人配置（cfg/workers/）：定义了在自监督训练中使用的工人（workers）的配置，包括数据增强策略、损失函数等。

在 train.py 中，通过 --net_cfg 和 --fe_cfg 参数指定这些配置文件的路径。正确的配置文件对于模型的性能至关重要，因此需要根据具体任务和数据集进行调整和优化。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。