Whisper-Finetune 使用指南

2026-01-16 10:06:43作者：秋阔奎Evelyn

Fine-tune the Whisper speech recognition model to support training without timestamp data, training with timestamp data, and training without speech data. Accelerate inference and support Web deployment, Windows desktop deployment, and Android deployment

项目地址：https://gitcode.com/gh_mirrors/wh/Whisper-Finetune

项目概述

Whisper-Finetune 是一个用于微调 OpenAI 的 Whisper 模型的项目，旨在通过支持多种训练场景（包括无需时间戳的数据训练、含时间戳数据训练以及无语音数据训练）来增强模型对于特定需求的适应性。此外，该项目还优化了推理速度，并提供了Web部署、Windows桌面应用以及Android部署的支持。

项目目录结构及介绍

.
├── custom_data          # 自定义数据集存放目录
├── evaluate              # 评估脚本相关文件
├── train                 # 训练脚本及相关配置
├── LICENSE               # 许可证文件
├── README.md             # 主要的项目说明文档
├── README_en.md          # 英文版项目说明文档
├── jax_transcribe_audio.py  # 使用JAX进行音频转录的脚本
├── requirements.txt      # 项目依赖库列表
├── transcribe_audio.py   # 核心转录音频脚本
├── ...                   # 其他工具脚本和配置文件

custom_data: 存放用户自定义的训练数据。
evaluate: 包括评估模型性能的脚本。
train: 包含微调模型所需的脚本和配置。
LICENSE: 开源许可证文件，声明Apache-2.0许可。
README.md: 中文版项目简介、安装和使用说明。
jax_transcribe_audio.py: 使用JAX库的音频转文字脚本。
requirements.txt: 列出项目运行所需的所有Python包。
transcribe_audio.py: 基础的音频转录程序。

项目的启动文件介绍

transcribe_audio.py: 此脚本是进行音频转文字的基本入口点。用户可以通过修改参数或配置文件来调用微调后的Whisper模型进行音频转录。
finetune.py: 项目中的关键脚本之一，用于启动模型的微调流程。用户需配置相应的训练数据路径和模型参数以开始微调过程。

项目的配置文件介绍

虽然在提供的信息中没有详细列出具体的配置文件名，通常这类项目会包括以下几种配置方式：

训练配置（可能位于train目录下）: 这类文件通常以.yaml或.py结尾，允许用户设置训练轮次、学习率、批次大小、模型保存路径等关键训练参数。
环境配置（如requirements.txt）: 不直接参与模型的运行逻辑，但定义了软件环境的依赖，确保项目能够正确运行。

在实际操作中，您可能会被引导去编辑或创建这些配置文件，以便根据您的硬件环境和具体需求调整项目设置。由于具体配置文件未在引用内容中明确指出，上述描述基于此类项目的一般实践。

请注意，启动项目前务必阅读README.md文件，其中应包含更详细的步骤说明和配置指导。

Whisper-Finetune