Speech Emotion Recognition with Parallel CNN-Transformer 模型教程

2026-01-17 08:50:22作者：温玫谨Lighthearted

Speech Emotion Classification with novel Parallel CNN-Transformer model built with PyTorch, plus thorough explanations of CNNs, Transformers, and everything in between

项目地址：https://gitcode.com/gh_mirrors/tr/transformer-cnn-emotion-recognition

1. 项目目录结构及介绍

该项目的目录结构如下：

.
├── data                # 存放数据集的目录
│   └── ravdess         # RAVDESS 数据集
├── models              # 存放模型定义的目录
│   ├── cnn.py          # 卷积神经网络模型
│   └── transformer.py  # 变形器编码器模型
├── scripts             # 存放脚本的目录
│   ├── train.py        # 训练脚本
│   ├── evaluate.py     # 评估脚本
│   └── predict.py      # 预测脚本
├── config.yaml         # 配置文件
└── notebooks           # 存放 Jupyter 笔记本的目录
    └── main.ipynb       # 主要代码示例笔记本

data: 包含用于训练和测试的数据集。
models: 存放 CNN 和 Transformer 模型的定义。
scripts: 提供训练、评估和预测的命令行接口。
config.yaml: 配置文件，用于设置模型参数、数据处理选项等。
notebooks: 存放详细的代码实现和解释的 Jupyter 笔记本。

2. 项目的启动文件介绍

2.1 训练脚本 (`train.py`)

这个脚本是项目的训练入口，它会加载配置文件中的设置，然后通过调用 CNN 和 Transformer 模型进行训练。你可以通过以下命令运行训练：

python scripts/train.py --config config.yaml

2.2 评估脚本 (`evaluate.py`)

该脚本用来评估已训练好的模型在验证集或测试集上的性能。用法类似于训练脚本：

python scripts/evaluate.py --config config.yaml

2.3 预测脚本 (`predict.py`)

用于对新的音频数据进行情绪分类。你可以提供一个或多个音频文件路径来获取预测结果。

python scripts/predict.py --config config.yaml --input_path path/to/audio.wav

3. 项目的配置文件介绍

config.yaml 文件包含了模型训练和评估的各种参数，例如：

model:
  num_classes: 8            # 情绪类别的数量
  input_shape: (128, 1)     # 输入音频特征的形状
  learning_rate: 0.001      # 学习率
  batch_size: 32            # 批次大小
  epochs: 100               # 训练轮数
  early_stopping_patience: 5 # 早停策略的耐心次数

dataset:
  root_dir: ./data/ravdess  # 数据集根目录
  augmentation: true        # 是否开启数据增强
  noise_factor: 0.05        # 噪声添加比例（仅在数据增强时有效）

transformer:
  num_heads: 4              # 注意力头的数量
  num_layers: 2             # 变形器层的数量
  d_model: 64               # 变形器隐藏层维度