Wenet项目中Whisper模型的中英双语增训参数配置解析

2025-06-13 15:10:05作者：邬祺芯Juliet

Production First and Production Ready End-to-End Speech Recognition Toolkit

项目地址：https://gitcode.com/gh_mirrors/we/wenet

概述

在语音识别领域，Whisper模型因其出色的多语言识别能力而广受关注。本文将深入探讨在Wenet项目中针对Whisper-large-v3-turbo模型进行中英双语增训时的关键参数配置要点，帮助开发者更好地理解和使用这一强大工具。

模型架构配置

Whisper-large-v3-turbo模型采用了典型的Transformer架构，包含编码器和解码器两部分：

编码器配置

激活函数：使用GELU激活函数
注意力机制：20个注意力头，注意力丢弃率为0.0
输入层：采用conv1d2结构处理音频输入
隐藏层维度：5120个线性单元
层归一化：采用前置归一化(normalize_before=true)
层数：32个Transformer块
位置编码：使用绝对位置编码(abs_pos_whisper)

解码器配置

层数：4个Transformer块(这是large-v3-turbo版本的特有配置)
词嵌入：采用可学习的位置编码(embed_learnable_pe)
共享权重：词嵌入与输出层共享权重(tie_word_embedding=true)

关键参数解析

语言相关配置

虽然训练仅针对中文(zh)和英文(en)两种语言，但num_languages参数应保持原始值100，而不是修改为2。这是因为：

Whisper的多语言能力是其核心特性
模型内部的语言识别机制需要完整的语言空间
即使只训练两种语言，保持原始语言维度有助于模型稳定

训练优化配置

学习率：设置为较低的0.00001，适合微调场景
热身步数：12000步的学习率预热
梯度裁剪：阈值为5，防止梯度爆炸
批处理：动态批处理，最大帧数102400

数据增强策略

频谱增强：使用频率和时间掩码(max_f=10, max_t=50)
频谱替换：时间维度替换(max_t=30)
速度扰动：未启用(适合更大幅度的数据增强)

训练技巧

梯度检查点：启用以减少显存占用
动态分块：未启用，使用完整序列训练
损失函数：纯交叉熵损失(ctc_weight=0.0)
标签平滑：使用0.1的lsm_weight

注意事项

输入特征使用128维的log梅尔频谱
输出维度保持原始51866，对应完整词表
音频处理采用16kHz采样率，400点FFT
序列长度限制在3000帧以内

通过合理配置这些参数，可以在保持Whisper模型强大多语言能力的同时，有效提升其中英双语的识别性能。这种配置方式既考虑了模型原有架构的特点，又针对特定语言对的训练需求进行了优化。

Production First and Production Ready End-to-End Speech Recognition Toolkit

项目地址：https://gitcode.com/gh_mirrors/we/wenet

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

用户可使用该项目在 OpenHarmony 平台开发应用，支持通过 IDE 或终端用 Flutter Tools 指令编译构建，基于 Flutter 3.27.4 版本，新增 impeller-vulkan 渲染模式，兼容多种开发指令与环境配置。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。