如何快速上手WenetSpeech：10000+小时中文语音识别数据集完整指南 🚀

2026-02-05 04:39:30作者：钟日瑜

WenetSpeech是一个包含10000+小时多领域中文语音识别数据集，专为训练和评估中文语音识别系统设计。数据来源于YouTube和Podcast，通过OCR和ASR技术标注，支持WeNet、Kaldi等主流语音识别框架，是语音AI开发者的必备资源。

📊 为什么选择WenetSpeech？三大核心优势

WenetSpeech作为目前最全面的中文语音数据集之一，具有以下显著特点：

1️⃣ 超大规模标注数据

10005小时高质量标注数据（置信度≥0.95）
2478小时弱标注数据（置信度0.6-0.95）
9952小时无标注数据，适合半监督/无监督训练

2️⃣ 多领域场景覆盖

数据涵盖10大领域，包括：

🎬 影视戏剧（4338.2小时）
🎙️ 新闻播报（868小时）
📚 有声读物（1110.2小时）
🎤 访谈对话（938.2小时）

3️⃣ 专业工具链支持

提供完整的预处理和训练脚本，支持三大主流框架：

WeNet：toolkits/wenet/
Kaldi：toolkits/kaldi/
ESPnet：toolkits/espnet/

图：WenetSpeech数据集架构示意图，展示了数据采集、标注与模型训练的完整流程

⚙️ 快速开始：四步安装配置指南

1️⃣ 环境准备（必备依赖）

Git：用于克隆项目代码
Python 3.7+：核心运行环境
Conda（推荐）：环境隔离工具
100GB+存储空间：用于存放数据集

2️⃣ 克隆项目代码

git clone https://gitcode.com/gh_mirrors/we/WenetSpeech
cd WenetSpeech

3️⃣ 获取访问权限

访问官方网站申请数据集密码
创建密码文件：

echo '你的密码' > SAFEBOX/password

4️⃣ 两种下载方式任选

🚀 方式一：默认腾讯云下载（推荐）

bash utils/download_wenetspeech.sh 下载目录 解压目录

🛠️ 方式二：ModelScope平台下载

# 1. 创建虚拟环境
conda create -n modelscope python=3.7
conda activate modelscope

# 2. 安装依赖
pip install torch
pip install modelscope -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

# 3. 修改下载配置并执行
sed -i 's/modelscope=false/modelscope=true/g' utils/download_wenetspeech.sh
bash utils/download_wenetspeech.sh 下载目录 解压目录

📁 数据集结构详解

核心数据分类

数据集类型	时长（小时）	置信度	用途
High Label	10005	≥0.95	有监督训练
Weak Label	2478	[0.6, 0.95]	半监督训练
Unlabel	9952	/	预训练/无监督训练

训练子集选择

提供三种规模的训练子集，满足不同需求：

L子集：10005小时（全量高质量数据）
M子集：1000小时（精选高质量数据）
S子集：100小时（轻量级测试数据）

🔧 主流框架使用教程

WeNet框架使用

cd toolkits/wenet
bash run.sh --stage 0 --stop-stage 5

配置文件路径：toolkits/wenet/conf/

Kaldi框架使用

cd toolkits/kaldi
bash run.sh --train-set train_L --test-sets test_net

预定义模型脚本：toolkits/kaldi/local/chain/

ESPnet框架使用

cd toolkits/espnet
bash run.sh --train_set train_L --dev_set dev --test_set test_net

训练配置：toolkits/espnet/conf/train_asr.yaml

📈 性能基准测试

工具包	DEV集	TEST_NET集	TEST_MEETING集	AIShell-1集
Kaldi	9.07	12.83	24.72	5.41
ESPnet	9.70	8.90	15.90	3.90
WeNet	8.88	9.70	15.59	4.61

表：各框架在标准测试集上的词错误率（WER）对比

🛠️ 实用工具脚本

项目提供多个便捷工具脚本：

数据下载：utils/download_wenetspeech.sh
元数据提取：toolkits/espnet/local/extract_meta.py
文本归一化：toolkits/espnet/local/text_normalize.pl
** opus文件处理**：toolkits/wenet/local/process_opus.py

❓ 常见问题解决

1. 下载速度慢怎么办？

尝试ModelScope下载方式（需科学上网）
使用多线程下载工具加速（如aria2）

2. 数据集如何划分训练/验证集？

可使用工具脚本toolkits/kaldi/local/wenetspeech_data_prep.sh自动划分

3. 支持哪些语音格式？

默认支持opus格式，可通过toolkits/espnet/local/process_opus.py转换为wav格式

🙏 致谢

WenetSpeech的开发得到了腾讯云、西安未来人工智能创新中心的支持，并参考了GigaSpeech项目的设计思路。特别感谢WeNet社区贡献者提供的工具链支持。

通过本指南，您已掌握WenetSpeech数据集的完整使用流程。立即开始构建您的中文语音识别系统吧！如有问题，欢迎加入WeNet社区交流。

WenetSpeech

A 10000+ hours dataset for Chinese speech recognition

项目地址：https://gitcode.com/gh_mirrors/we/WenetSpeech

登录后查看全文