FunASR项目中使用speech_paraformer-large模型进行微调的实践指南

2025-05-24 09:00:43作者：翟江哲Frasier

引言

在语音识别领域，预训练模型的微调是一个常见且重要的技术环节。本文将详细介绍如何在FunASR项目中，使用speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型进行微调的实际操作过程。

环境准备

进行模型微调前，需要确保具备以下环境条件：

操作系统：推荐使用Linux系统，如Ubuntu 22.04
Python环境：建议使用较新版本的Python
深度学习框架：PyTorch 2.1.3及以上版本
GPU资源：建议使用V100等高性能GPU
CUDA版本：12.1.0或兼容版本

数据准备

微调过程需要准备训练集和验证集，数据格式应为jsonl文件。可以通过以下步骤转换数据格式：

准备原始数据文件：
- 训练集音频列表：train_wav.scp
- 训练集文本标注：train_text.txt
- 验证集音频列表：val_wav.scp
- 验证集文本标注：val_text.txt

使用FunASR提供的工具将scp和txt文件转换为jsonl格式：

python -m funasr.datasets.audio_datasets.scp2jsonl \
++scp_file_list='["train_wav.scp", "train_text.txt"]' \
++data_type_list='["source", "target"]' \
++jsonl_file_out="train.jsonl"

模型下载与配置

从模型库中下载预训练模型：

local_path_root=${workspace}/modelscope_models
mkdir -p ${local_path_root}
git clone https://www.modelscope.cn/iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git ${local_path}

确保模型包含以下关键文件：
- tokens.json：词汇表文件
- am.mvn：音频特征归一化文件
- model.pt：模型参数文件
- config.yaml：配置文件

微调参数设置

微调过程中需要关注以下关键参数：

数据相关参数：
- train_data_set_list：训练集路径
- valid_data_set_list：验证集路径
- batch_size：批次大小（建议32）
- num_workers：数据加载线程数
模型相关参数：
- token_list：词汇表文件路径
- cmvn_file：特征归一化文件路径
- init_param：预训练模型参数路径
训练过程参数：
- max_epoch：最大训练轮数（建议20）
- lr：学习率（建议0.0002）
- log_interval：日志记录间隔